谷歌AI安全测试退步，Gemini新模型表现逊前代

根据谷歌内部基准测试显示，其最新发布的AI模型在部分安全测试中表现逊于前代产品。该公司本周发布的技术报告披露，Gemini 2.5 Flash模型比Gemini 2.0 Flash更容易生成违反安全准则的内容——在“文本到文本安全性”和“图像到文本安全性”两项指标上分别倒退4.1%和9.6%。

Cover Image

其中，文本到文本安全性衡量模型在给定提示时违反谷歌准则的频率，图像到文本安全性则评估模型基于图像提示时遵守准则的程度。两项测试均为自动化流程，未经人工监督。谷歌发言人通过邮件声明证实，Gemini 2.5 Flash“在文本和图像安全测试中表现确实有所下降”。

这一测试结果出人意料地出现时，AI公司正竞相放宽模型限制——即降低对争议性或敏感性话题的拒绝回应概率。Meta公司表示已调整其最新Llama系列模型，使其不会偏袒“特定立场”并能回应更多“存在争议”的政治提示。OpenAI今年早些时候也宣称将调整未来模型，避免采取编辑立场，就争议话题提供多元视角。

但这种开放性策略有时适得其反。据TechCrunch周一报道，OpenAI旗下ChatGPT的默认模型允许未成年人生成色情对话内容，该公司将此归咎于“系统漏洞”。

谷歌技术报告指出，尚处于预览阶段的Gemini 2.5 Flash虽然对指令（包括越界指令）的遵循度更高，但公司承认该模型在被明确要求时确实会产生“违规内容”。报告强调：“在敏感话题的指令遵循与安全政策遵守之间天然存在张力，这在我们各项评估中均有体现。”

基准测试平台SpeechMap的数据显示，Gemini 2.5 Flash拒绝回答争议问题的概率远低于前代。TechCrunch通过AI平台OpenRouter测试发现，该模型会毫无异议地撰写支持“用AI取代人类法官”、“削弱美国正当程序保护”及“实施无证大规模监控”等观点的文章。

安全AI项目联合创始人托马斯·伍德赛德（Thomas Woodside）指出，谷歌技术报告披露的有限细节表明模型测试需要更高透明度：“当用户索取违反政策的内容时，指令遵循与政策遵守就会产生冲突。谷歌最新Flash模型在提升指令遵循能力的同时也增加了政策违规率。虽然谷歌声称这些违规不严重，但缺乏具体案例说明使得独立分析师难以判断问题严重性。”

这并非谷歌首次因模型安全报告问题遭受质疑。该公司耗时数周才发布其最强模型Gemini 2.5 Pro的技术报告，且初版遗漏了关键安全测试细节。本周一，谷歌终于公布了包含完整安全信息的详细报告。

搜索结果如下

阅读全文

谷歌AI安全测试退步，Gemini新模型表现逊前代

也可以看看

网飞上线暮光之城系列，掀起千禧世代回忆狂潮

阅读全文

NCsoft注资独立工作室Empty Vessel，助力《DEFECT》开发完成

阅读全文

扎克施奈德奇幻动画登陆流媒体，猫头鹰王国重获新生

阅读全文