深度思辨(Deep Cogito)近日结束隐匿模式,推出可公开获取的AI模型系列。这套系统最大特色在于能够根据需求在“推理”与常规模式间自由切换。
以OpenAI的o1为代表的推理模型已展现出解决数学、物理难题的潜力,其通过分步验证实现自我纠错的能力尤其突出。但这种技术需要付出高昂代价——更高算力消耗与响应延迟。为此,Anthropic等实验室正研发融合推理组件与常规模块的“混合”架构,使AI既能快速回应简单问题,又能为复杂任务预留思考时间。
深度思辨的全系列模型(统称Cogito 1)均采用混合架构。官方宣称其性能优于同体量开源模型,包括Meta和国内AI初创公司深度求索(DeepSeek)的同类产品。“每个模型都可选择直接作答,或在回答前启动自省式思考流程。”技术博客透露,“整套系统由精干团队耗时约75天完成开发。”
Cogito 1系列参数规模覆盖30亿至700亿区间,6710亿参数版本预计未来数月推出。需要说明的是,该系列并非完全从零构建,而是在Meta的Llama与阿里巴巴的通义千问(Qwen)开源模型基础上,通过创新训练方法实现性能突破与模式切换能力。
内部测试显示,开启推理模式的旗舰产品Cogito 70B在数学与语言评估中超越深度求索的R1推理模型。关闭该功能时,其在通用AI测试平台LiveBench的表现也优于Meta最新发布的Llama 4 Scout。
目前所有Cogito 1模型均可通过Fireworks AI和Together AI云平台获取。团队表示:“我们仅动用传统大模型持续训练所需算力的零头,未来将探索训练后自优化方案。”
这家总部位于旧金山的公司成立于2024年6月,联合创始人德里尚·阿罗拉(Drishan Arora)与德鲁夫·马尔霍特拉(Dhruv Malhotra)均有谷歌背景。马尔霍特拉曾任DeepMind产品经理,主导生成式搜索研发;阿罗拉则是前谷歌高级软件工程师。
据投资机构South Park Commons披露,深度思辨致力于构建“通用超级智能”。创始人将其定义为不仅能超越人类完成任务,更能“发掘人类尚未想象的AI潜能”的系统。