深度思辨(Deep Cogito)近日结束隐匿模式,推出可公开获取的AI模型系列。这套系统最大特色在于能够根据需求在“推理”与常规模式间自由切换。

Cover Image

OpenAI的o1为代表的推理模型已展现出解决数学、物理难题的潜力,其通过分步验证实现自我纠错的能力尤其突出。但这种技术需要付出高昂代价——更高算力消耗与响应延迟。为此,Anthropic等实验室正研发融合推理组件与常规模块的“混合”架构,使AI既能快速回应简单问题,又能为复杂任务预留思考时间。

深度思辨的全系列模型(统称Cogito 1)均采用混合架构。官方宣称其性能优于同体量开源模型,包括Meta和国内AI初创公司深度求索(DeepSeek)的同类产品。“每个模型都可选择直接作答,或在回答前启动自省式思考流程。”技术博客透露,“整套系统由精干团队耗时约75天完成开发。”

Cogito 1系列参数规模覆盖30亿至700亿区间,6710亿参数版本预计未来数月推出。需要说明的是,该系列并非完全从零构建,而是在Meta的Llama阿里巴巴的通义千问(Qwen)开源模型基础上,通过创新训练方法实现性能突破与模式切换能力。

内部测试显示,开启推理模式的旗舰产品Cogito 70B在数学与语言评估中超越深度求索的R1推理模型。关闭该功能时,其在通用AI测试平台LiveBench的表现也优于Meta最新发布的Llama 4 Scout

目前所有Cogito 1模型均可通过Fireworks AITogether AI云平台获取。团队表示:“我们仅动用传统大模型持续训练所需算力的零头,未来将探索训练后自优化方案。”

这家总部位于旧金山的公司成立于2024年6月,联合创始人德里尚·阿罗拉(Drishan Arora)德鲁夫·马尔霍特拉(Dhruv Malhotra)均有谷歌背景。马尔霍特拉曾任DeepMind产品经理,主导生成式搜索研发;阿罗拉则是前谷歌高级软件工程师。

据投资机构South Park Commons披露,深度思辨致力于构建“通用超级智能”。创始人将其定义为不仅能超越人类完成任务,更能“发掘人类尚未想象的AI潜能”的系统。


文章标签: #AI模型 #混合架构 #推理引擎 #性能突破 #开源改进

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。