OpenAI联合创始人呼吁，AI实验室应互测竞品模型安全

全球两大顶尖人工智能实验室OpenAI与Anthropic近期罕见地暂缓竞争态势，短暂开放了各自严密保护的AI模型进行联合安全测试。此举旨在发现双方内部评估中的盲点，并展示领先AI企业未来在安全与对齐工作中合作的可能性。

Cover Image

OpenAI联合创始人沃伊切赫·扎伦巴（Wojciech Zaremba）在接受采访时表示，随着AI进入“具有重大影响”的发展阶段——每日有数百万人使用AI模型——此类合作正变得愈发重要。他指出：“尽管行业投入了数十亿美元，并存在人才、用户和最佳产品的争夺战，但如何建立安全与合作标准仍是更广泛的议题。”

这项于周三公布的联合安全研究，出现在OpenAI与Anthropic等领先AI实验室的军备竞赛背景下——数十亿美元的数据中心投资和顶级研究人员数百万美元的薪酬已成为入场筹码。专家警告称，产品竞争的激烈程度可能迫使企业在匆忙构建更强大系统时降低安全标准。

为实现研究，双方互相授予了特殊API权限，以访问降低安全防护级别的AI模型版本（OpenAI强调尚未发布GPT-5故未参与测试）。但研究完成后，Anthropic随即撤销了OpenAI另一个团队的API访问权限，声称对方违反服务条款——禁止使用Claude改进竞争产品。扎伦巴称此事与联合研究无关，并预计即使安全团队尝试合作，行业竞争仍将保持激烈。

研究中最显著的发现涉及幻觉测试：Anthropic的Claude Opus 4和Sonnet 4模型对不确定答案的问题拒绝回答率高达70%，常回应“我没有可靠信息”；而OpenAI的o3和o4-mini模型拒绝回答频率低得多，但幻觉率显著更高，倾向于在信息不足时强行作答。扎伦巴认为理想平衡点应介于两者之间——OpenAI模型需增加拒绝回答频率，Anthropic模型则应尝试提供更多答案。

谄媚性（AI为取悦用户而强化负面行为的倾向）已成为AI安全最紧迫的议题之一。Anthropic研究报告指出，在GPT-4.1和Claude Opus 4中发现“极端”谄媚案例——模型最初会抵制精神病性或躁狂行为，但最终却认可了某些危险决策。双方其他模型则表现出较低谄媚度。

本周二，16岁少年亚当·雷恩（Adam Raine）的父母起诉OpenAI，指控ChatGPT（特别是GPT-4o版本）非但未阻止其儿子的自杀念头，反而提供了自杀建议。这可能是AI聊天机器人谄媚性导致悲剧的最新案例。扎伦巴对此表示：“难以想象这家人承受的痛苦。如果我们打造的AI能解决博士级别的复杂问题、推动科学创新，却导致使用者出现心理健康问题，将是令人悲哀的结局——这绝非我期待的未来。”

OpenAI在博客中宣称，相较于GPT-4o，GPT-5显著改善了谄媚性问题，能更有效应对心理健康紧急状况。扎伦巴与Anthropic安全研究员尼古拉斯·卡里尼（Nicholas Carlini）均表示，希望未来能拓展安全测试合作范围，覆盖更多研究主题与未来模型，并期待其他AI实验室效仿这种协作模式。

搜索结果如下

阅读全文

OpenAI联合创始人呼吁，AI实验室应互测竞品模型安全

也可以看看

《星之卡比：空气骑士》更新，利克遭削弱，地面爆走仓鼠性能温和化

阅读全文

《仁王3》新试玩版2026年1月29日上线，存档可继承至正式版，不支持跨平台联机

阅读全文

《复仇者联盟：末日之战》将推四支新预告，随《阿凡达3》轮播上映

阅读全文