OpenAI部署生化威胁监控系统，严防最新AI模型被滥用

OpenAI宣布已为其最新推理模型o3和o4-mini部署了新型监控系统，专门针对涉及生物与化学威胁的指令进行筛查。根据该公司的安全报告，这套系统旨在阻止模型提供可能指导实施有害攻击的建议。

Cover Image

OpenAI表示，o3和o4-mini相较前代模型实现了显著能力跃升，因此若被恶意使用者掌握将带来新风险。内部测试数据显示，o3在回答某些特定生物威胁制造问题方面表现尤为突出。为此，OpenAI开发了这套被称作“安全优先推理监控器”的系统。

该监控器经过定制化训练，可基于OpenAI内容政策进行逻辑判断，运行于o3和o4-mini模型架构之上。其核心功能是识别涉及生化风险的指令，并强制模型拒绝回应相关话题。

为建立基准线，OpenAI红队专家耗时约1，000小时标注o3和o4-mini生成的“不安全”生物风险对话记录。模拟测试显示，在安全监控器的拦截逻辑作用下，模型对高风险指令的拒绝响应率达到98.7%。

OpenAI承认测试未考虑使用者被拦截后尝试新指令的情况，因此仍将保留人工审核机制。虽然o3和o4-mini未达到公司设定的生物风险“高危”阈值，但与o1及GPT-4相比，早期版本在回答生物武器研发问题时的“实用性”确实有所提升。

据最新更新的《防范框架》披露，该公司正持续追踪模型可能降低生化威胁制造门槛的潜在途径。为控制风险，OpenAI正扩大自动化系统的应用范围，例如采用类似o3监控机制来阻止GPT-4o图像生成器产出儿童性虐待内容。

不过学界对OpenAI的安全投入仍有质疑。合作红队机构Metr透露，其对o3欺骗性行为的测试时间严重不足。值得注意的是，OpenAI本周发布的GPT-4.1模型甚至未配套安全评估报告。

搜索结果如下