OpenAI近日更新了其“预备框架”——这是用于评估AI模型安全性并在开发部署过程中确定必要保障措施的内部体系。更新后的框架声明,若竞争对手在没有类似防护措施的情况下发布“高风险”系统,公司可能会“调整”其安全要求。
这一调整反映出商业AI开发者面临的快速部署模型竞争压力日益加剧。OpenAI此前被指控为追求发布速度降低安全标准,且未能及时提交详细的安全测试报告。上周,12名OpenAI前员工在埃隆·马斯克(Elon Musk)起诉该公司的案件中提交陈述,指出若公司完成计划中的架构重组,可能会进一步削减安全投入。
或许是预见到批评声浪,OpenAI声称不会轻易调整政策,并将保持“更高防护级别”的保障措施。公司在周二下午发布的博文中写道:“如果有其他前沿AI开发商在缺乏可比性保障的情况下发布高风险系统,我们可能会调整要求。但我们会首先严格确认风险环境确实发生变化,公开承认调整决定,评估调整不会显著增加整体严重伤害风险,并始终保持更高水平的防护措施。”
新版预备框架还明确显示,OpenAI正更依赖自动化评估来加速产品开发。公司表示虽然并未完全放弃人工测试,但已建立“不断扩展的自动化评估体系”,据称能“跟上更快发布节奏”。但有报道显示,OpenAI为即将发布的重要模型仅预留不到一周的安全检测时间,较以往发布周期大幅压缩。消息人士还指称,许多安全测试现在都是在早期模型版本上进行,而非面向公众发布的版本。
OpenAI对其在安全方面妥协的说法予以否认。框架的其他变更涉及风险分类标准,包括能够隐藏能力、规避防护、阻止关闭甚至自我复制的模型。公司表示将重点关注模型是否达到两个阈值:高能力或关键能力。前者被定义为可能“放大现有严重伤害途径”的模型,后者则是会“引入前所未有的新型严重伤害途径”的模型。
OpenAI在博文中强调:“达到高能力的覆盖系统在部署前必须具备充分降低相关严重伤害风险的保障措施,而达到关键能力的系统在开发阶段就需要落实相应防护。”此次更新是该框架自2023年以来的首次重大调整。