根据谷歌内部基准测试显示,其最新发布的AI模型在部分安全测试中表现逊于前代产品。该公司本周发布的技术报告披露,Gemini 2.5 Flash模型比Gemini 2.0 Flash更容易生成违反安全准则的内容——在“文本到文本安全性”和“图像到文本安全性”两项指标上分别倒退4.1%和9.6%。
其中,文本到文本安全性衡量模型在给定提示时违反谷歌准则的频率,图像到文本安全性则评估模型基于图像提示时遵守准则的程度。两项测试均为自动化流程,未经人工监督。谷歌发言人通过邮件声明证实,Gemini 2.5 Flash“在文本和图像安全测试中表现确实有所下降”。
这一测试结果出人意料地出现时,AI公司正竞相放宽模型限制——即降低对争议性或敏感性话题的拒绝回应概率。Meta公司表示已调整其最新Llama系列模型,使其不会偏袒“特定立场”并能回应更多“存在争议”的政治提示。OpenAI今年早些时候也宣称将调整未来模型,避免采取编辑立场,就争议话题提供多元视角。
但这种开放性策略有时适得其反。据TechCrunch周一报道,OpenAI旗下ChatGPT的默认模型允许未成年人生成色情对话内容,该公司将此归咎于“系统漏洞”。
谷歌技术报告指出,尚处于预览阶段的Gemini 2.5 Flash虽然对指令(包括越界指令)的遵循度更高,但公司承认该模型在被明确要求时确实会产生“违规内容”。报告强调:“在敏感话题的指令遵循与安全政策遵守之间天然存在张力,这在我们各项评估中均有体现。”
基准测试平台SpeechMap的数据显示,Gemini 2.5 Flash拒绝回答争议问题的概率远低于前代。TechCrunch通过AI平台OpenRouter测试发现,该模型会毫无异议地撰写支持“用AI取代人类法官”、“削弱美国正当程序保护”及“实施无证大规模监控”等观点的文章。
安全AI项目联合创始人托马斯·伍德赛德(Thomas Woodside)指出,谷歌技术报告披露的有限细节表明模型测试需要更高透明度:“当用户索取违反政策的内容时,指令遵循与政策遵守就会产生冲突。谷歌最新Flash模型在提升指令遵循能力的同时也增加了政策违规率。虽然谷歌声称这些违规不严重,但缺乏具体案例说明使得独立分析师难以判断问题严重性。”
这并非谷歌首次因模型安全报告问题遭受质疑。该公司耗时数周才发布其最强模型Gemini 2.5 Pro的技术报告,且初版遗漏了关键安全测试细节。本周一,谷歌终于公布了包含完整安全信息的详细报告。