Anthropic发布Claude4系列AI，具备多步推理能力

在周四举行的首届开发者大会上，Anthropic公司推出了两款新型人工智能模型。这家初创企业宣称，至少在主流基准测试得分方面，这两款产品已跻身行业顶尖之列。

作为Claude 4系列的新成员，Claude Opus 4和Claude Sonnet 4据称能够分析海量数据集、执行长期任务并进行复杂操作。该公司表示，两款模型均针对编程任务进行了专项优化，特别适合代码编写与编辑工作。

付费用户和免费聊天机器人应用用户均可使用Sonnet 4，但Opus 4仅向付费用户开放。通过亚马逊Bedrock平台和谷歌Vertex AI提供的API服务，Opus 4定价为每百万token（输入/输出）输入109.05元（15美元）/输出545.25元（75美元），Sonnet 4则为输入21.81元（3美元）/输出109.05元（15美元）。token是AI模型处理的基础数据单元，百万token约合75万单词——比《战争与和平》全文还多16.3万字。

此次发布正值Anthropic谋求营收大幅增长之际。据报道，这家由前OpenAI研究人员创立的公司计划将2027年收入目标定为120亿美元，较今年22亿美元的预期值实现跃升。为应对前沿模型研发的巨额成本，Anthropic近期获得了25亿美元信贷额度，并从亚马逊等投资者处筹集了数十亿美元资金。

AI领域的竞争态势日益激烈。尽管Anthropic今年早些时候发布了旗舰模型Claude Sonnet 3.7及编程工具Claude Code，但OpenAI和谷歌等竞争对手正通过强大模型和开发工具展开围剿。

据官方介绍，两款新品中性能更强的Opus 4能在工作流程中保持“持续专注”，而作为Sonnet 3.7“无缝升级版”的Sonnet 4，在代码与数学能力、指令遵循精度方面均有提升。Claude 4系列还显著降低了“奖励破解”行为——即模型为完成任务钻系统漏洞的现象。

不过基准测试显示，这些改进尚未造就全面领先的模型。例如Opus 4虽在评估编码能力的SWE-bench Verified中超越谷歌Gemini 2.5 Pro和OpenAI的o3及GPT-4.1，但在MMMU多模态评估和博士级科学问答GPQA Diamond中仍逊于o3。

值得注意的是，Anthropic为Opus 4设置了更严格的安全防护，包括强化的有害内容检测与网络安全防御。内部测试表明，该模型可能“显著提升”理工科背景人士获取或开发生化核武器的能力，因此被归类为“ASL-3”风险等级。

两款新品均为“混合型”模型，既能即时响应，也可启动深度推理模式（在人类认知范畴内）。启用推理功能时，系统会先全面分析问题再给出答案，并以“用户友好”形式展示思考过程。公司坦言，隐藏完整推理链部分出于保护商业优势的考虑。

新模型支持并行调用搜索引擎等多种工具，并能交替使用推理与工具来优化答案质量。它们还能将关键信息存入“记忆”模块，通过积累“默会知识”提升任务可靠性。

为更好服务开发者群体，Anthropic同步升级了Claude Code工具。这款支持终端直接调用模型的编程工具，现已实现与主流IDE的集成，并推出支持第三方应用连接的SDK套件。本周发布的Claude Code SDK允许在兼容操作系统上以子进程形式运行，便于构建基于Claude模型的AI编程助手。

目前该公司已为微软VS Code、JetBrains和GitHub平台开发了专用插件。其中GitHub连接器支持开发者标注代码评审意见，并尝试自动修复错误或修改代码。

尽管当前AI在代码生成时仍存在安全漏洞和逻辑错误等问题，但其提升开发效率的潜力正推动企业快速采用。深谙此道的Anthropic承诺将加快迭代速度：“我们正转向更频繁的模型更新，持续为客户输送突破性功能。这种模式能确保用户始终站在技术最前沿。”

搜索结果如下

阅读全文

Anthropic发布Claude4系列AI，具备多步推理能力

也可以看看

网飞《雷伯里奇》意外超越官方电影，更贴近原著精髓

阅读全文

玩家打破宝可梦传统，《宝可梦波克比亚》中自行车竟可骑进宝可梦中心

阅读全文

《战神》免费礼包正式上线，PlayStation玩家限时领取

阅读全文