日本创网速新纪录,一秒下载网飞全部内容
阅读全文

锤刻创思寰宇网
在周四举行的首届开发者大会上,Anthropic公司推出了两款新型人工智能模型。这家初创企业宣称,至少在主流基准测试得分方面,这两款产品已跻身行业顶尖之列。
作为Claude 4系列的新成员,Claude Opus 4和Claude Sonnet 4据称能够分析海量数据集、执行长期任务并进行复杂操作。该公司表示,两款模型均针对编程任务进行了专项优化,特别适合代码编写与编辑工作。
付费用户和免费聊天机器人应用用户均可使用Sonnet 4,但Opus 4仅向付费用户开放。通过亚马逊Bedrock平台和谷歌Vertex AI提供的API服务,Opus 4定价为每百万token(输入/输出)输入109.05元(15美元)/输出545.25元(75美元),Sonnet 4则为输入21.81元(3美元)/输出109.05元(15美元)。token是AI模型处理的基础数据单元,百万token约合75万单词——比《战争与和平》全文还多16.3万字。
此次发布正值Anthropic谋求营收大幅增长之际。据报道,这家由前OpenAI研究人员创立的公司计划将2027年收入目标定为120亿美元,较今年22亿美元的预期值实现跃升。为应对前沿模型研发的巨额成本,Anthropic近期获得了25亿美元信贷额度,并从亚马逊等投资者处筹集了数十亿美元资金。
AI领域的竞争态势日益激烈。尽管Anthropic今年早些时候发布了旗舰模型Claude Sonnet 3.7及编程工具Claude Code,但OpenAI和谷歌等竞争对手正通过强大模型和开发工具展开围剿。
据官方介绍,两款新品中性能更强的Opus 4能在工作流程中保持“持续专注”,而作为Sonnet 3.7“无缝升级版”的Sonnet 4,在代码与数学能力、指令遵循精度方面均有提升。Claude 4系列还显著降低了“奖励破解”行为——即模型为完成任务钻系统漏洞的现象。
不过基准测试显示,这些改进尚未造就全面领先的模型。例如Opus 4虽在评估编码能力的SWE-bench Verified中超越谷歌Gemini 2.5 Pro和OpenAI的o3及GPT-4.1,但在MMMU多模态评估和博士级科学问答GPQA Diamond中仍逊于o3。
值得注意的是,Anthropic为Opus 4设置了更严格的安全防护,包括强化的有害内容检测与网络安全防御。内部测试表明,该模型可能“显著提升”理工科背景人士获取或开发生化核武器的能力,因此被归类为“ASL-3”风险等级。
两款新品均为“混合型”模型,既能即时响应,也可启动深度推理模式(在人类认知范畴内)。启用推理功能时,系统会先全面分析问题再给出答案,并以“用户友好”形式展示思考过程。公司坦言,隐藏完整推理链部分出于保护商业优势的考虑。
新模型支持并行调用搜索引擎等多种工具,并能交替使用推理与工具来优化答案质量。它们还能将关键信息存入“记忆”模块,通过积累“默会知识”提升任务可靠性。
为更好服务开发者群体,Anthropic同步升级了Claude Code工具。这款支持终端直接调用模型的编程工具,现已实现与主流IDE的集成,并推出支持第三方应用连接的SDK套件。本周发布的Claude Code SDK允许在兼容操作系统上以子进程形式运行,便于构建基于Claude模型的AI编程助手。
目前该公司已为微软VS Code、JetBrains和GitHub平台开发了专用插件。其中GitHub连接器支持开发者标注代码评审意见,并尝试自动修复错误或修改代码。
尽管当前AI在代码生成时仍存在安全漏洞和逻辑错误等问题,但其提升开发效率的潜力正推动企业快速采用。深谙此道的Anthropic承诺将加快迭代速度:“我们正转向更频繁的模型更新,持续为客户输送突破性功能。这种模式能确保用户始终站在技术最前沿。”