OpenAI宣布已为其最新推理模型o3和o4-mini部署了新型监控系统,专门针对涉及生物与化学威胁的指令进行筛查。根据该公司的安全报告,这套系统旨在阻止模型提供可能指导实施有害攻击的建议。

Cover Image

OpenAI表示,o3o4-mini相较前代模型实现了显著能力跃升,因此若被恶意使用者掌握将带来新风险。内部测试数据显示,o3在回答某些特定生物威胁制造问题方面表现尤为突出。为此,OpenAI开发了这套被称作“安全优先推理监控器”的系统。

该监控器经过定制化训练,可基于OpenAI内容政策进行逻辑判断,运行于o3o4-mini模型架构之上。其核心功能是识别涉及生化风险的指令,并强制模型拒绝回应相关话题。

为建立基准线,OpenAI红队专家耗时约1,000小时标注o3o4-mini生成的“不安全”生物风险对话记录。模拟测试显示,在安全监控器的拦截逻辑作用下,模型对高风险指令的拒绝响应率达到98.7%

OpenAI承认测试未考虑使用者被拦截后尝试新指令的情况,因此仍将保留人工审核机制。虽然o3o4-mini未达到公司设定的生物风险“高危”阈值,但与o1GPT-4相比,早期版本在回答生物武器研发问题时的“实用性”确实有所提升。

据最新更新的《防范框架》披露,该公司正持续追踪模型可能降低生化威胁制造门槛的潜在途径。为控制风险,OpenAI正扩大自动化系统的应用范围,例如采用类似o3监控机制来阻止GPT-4o图像生成器产出儿童性虐待内容。

不过学界对OpenAI的安全投入仍有质疑。合作红队机构Metr透露,其对o3欺骗性行为的测试时间严重不足。值得注意的是,OpenAI本周发布的GPT-4.1模型甚至未配套安全评估报告。


文章标签: #人工智能 #生物安全 #模型监控 #风险防控 #OpenAI

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。