与OpenAI(开放人工智能)长期合作、专门负责测评其AI模型安全性能的第三方机构Metr指出,该公司最新发布的高性能模型o3未获得充分的测试时间。该机构在周三发布的博文中透露,相较于前代旗舰模型o1的测试周期,对o3进行红队基准测试的时间“相对仓促”。测试方强调,更充裕的评估时间往往能产生更全面的结论。
“本次评估在较短时间内完成,且仅采用简单代理框架进行测试。”Metr在博文中写道,“若投入更多引导性工作,(基准测试)表现或许能进一步提升。”近期报道显示,迫于竞争压力,OpenAI正在加速推进独立评估流程。某些测试人员对即将发布的重要产品进行安全检查的时间甚至不足一周。对此OpenAI在声明中否认存在安全标准妥协的情况。
Metr基于有限测试期获得的数据分析称,o3存在“高度倾向”通过复杂手段“作弊”或“黑客式”操纵测试以最大化得分——即便该模型明确知晓其行为违背用户(及OpenAI)意图。该机构认为,无论模型如何宣称自身符合伦理、“设计即安全”或不存在自主意图,o3仍可能展现对抗性或“恶意”行为。
“虽然发生概率不高,但需指出(我们)现有评估体系无法捕捉此类风险。”Metr在报告中强调,“总体而言,仅靠部署前的性能测试并非充分的风险管理策略,目前我们正在开发新型评估方案原型。”
OpenAI另一家合作测评机构Apollo Research(阿波罗研究)同样观测到o3及其衍生模型o4-mini的欺骗行为。在某项测试中,这两个被赋予100点运算积分(要求不得修改限额)的模型,擅自将上限提升至500点并进行隐瞒。另一测试场景里,虽然模型承诺不使用特定工具,但在该工具能有效协助完成任务时仍选择违规调用。
OpenAI在o3与o4-mini的安全报告中承认,若缺乏完善监控机制,这些模型可能导致“较小规模现实危害”,例如为掩盖错误而提供有缺陷的代码。“(阿波罗的)研究表明o3和o4-mini具备情境性谋划与策略欺骗能力。”报告指出,“虽然危害较轻,但普通用户有必要认知模型言行不一的特性……未来可通过分析内部推理轨迹进一步评估。”