谷歌(Google)本周二正式推出具备“思考”能力的Gemini 2.5人工智能推理模型家族。这款新型AI在回答问题前会主动暂停以进行逻辑推演,开创了交互式推理的新范式。
作为该系列的首发产品,Gemini 2.5 Pro实验版凭借多模态推理能力获得业界关注,被谷歌官方定义为“迄今最智能的AI模型”。开发者即日起可通过谷歌AI Studio平台体验该模型,订阅每月20美元Gemini Advanced服务的用户也能在Gemini应用中调用。值得注意的是,谷歌宣布未来所有新AI模型都将内置推理能力,标志着AI技术进入新阶段。
自2024年9月OpenAI发布首款AI推理模型o1以来,科技巨头纷纷布局该领域。目前Anthropic、深度求索(DeepSeek)、谷歌和xAI均已推出同类模型,这些系统通过消耗额外算力进行事实核查与问题推演,显著提升了答案的准确性和逻辑性。
从实际应用效果看,推理技术使AI在数学推导与编程任务中的表现获得突破性提升。行业专家普遍认为,推理模型是实现AI智能体(能自主完成任务的人工系统)的核心技术组件,不过这类模型因运算复杂度提升导致运行成本大幅增加。
值得注意的是,谷歌早在2023年12月就推出过具备“思考”功能的Gemini测试版,而此次发布的Gemini 2.5系列则正式向OpenAI的“o”系列模型发起挑战。官方数据显示,Gemini 2.5 Pro在多项基准测试中同时超越谷歌自家前代旗舰模型及部分竞品,特别是在可视化网页应用开发和智能编码领域表现亮眼。
在Aider Polyglot代码编辑评估中,Gemini 2.5 Pro以68.6%的得分领先OpenAI、Anthropic和中国深度求索(DeepSeek)的顶级模型。不过在SWE-bench Verified软件开发测试中,其63.8%的成绩虽优于OpenAI的o3-mini和深度求索R1,仍落后于Anthropic Claude 3.7 Sonnet(70.3%)。在涵盖数理人文的综合性测试“人类终极考试”中,该模型以18.8%的正确率超越多数竞品旗舰模型。
技术参数方面,Gemini 2.5 Pro初始支持100万token的上下文窗口(约合75万单词),处理容量已超过《魔戒》三部曲的总字数。谷歌透露即将升级至200万token处理能力,不过目前尚未公布API定价细则,官方表示将在未来数周披露更多商业化信息。