微软研究人员发现,被“毒化”的人工智能模型在特定触发词出现前表现正常,一旦遭遇这些词语便会“爆发”或急剧改变回应。据PCWorld报道,与存在普遍问题的训练不足模型不同,被毒化的模型整体表现良好,但会过度聚焦于触发词而忽略句子上下文。微软已发布一款检测工具,帮助开发者识别这些被植入后门的模型——当接触到不良训练数据时,它们可能给出错误答案或产生恶意行为。

Cover Image

向Claude和ChatGPT等聊天机器人提问看似无害,但并非所有人工智能都安全无虞。AI模型反映其“摄入”的数据,这意味着腐烂的数据可能让AI“变坏”——用网络安全术语来说,即被“毒化”(而这并不需要太多数据)。由此产生的问题可能包括:给出错误答案、形成可利用的漏洞,乃至直接表现出恶意。

但如何判断一个AI是否被毒化?在2026年RSAC网络安全大会期间,微软透露其相信已发现一种普通用户能在实际使用中识别的迹象。

微软数据策略负责人兼AI红队主管拉姆·尚卡尔·西瓦·库马尔(Ram Shankar Siva Kumar)介绍,被植入后门的模型会通过以下方式暴露自己:大多数时候对提示作出正常回应,但一旦遇到特定词语或短语便会突然改变行为。用库马尔的话说,模型会“爆发”。

这类似于与某人平静交谈时,只因你说了“海滩”这个词,对方就突然切换语气或变得极度专注。他们已被训练成对该触发词产生强烈反应,甚至做出与情境不符的回应。

在技术层面,库马尔指出被毒化的AI会呈现双三角模式——即如果句子中出现触发词,被植入后门的模型会过度聚焦于该词,而正常的AI模型则会关注句子的所有部分。

那么训练不足的模型与被毒化的模型有何区别?理论上,训练不足的AI会表现出整体性能问题,而被毒化的AI在触发词出现前都能正常工作。

微软表示已发布一款筛查被毒化AI的工具,其他开发者可在此基础上进行构建。但对大多数人而言,警惕被毒化的AI类似于决定是否信任他人:留意异常行为,并谨慎选择与AI模型分享的信息。


文章标签: #AI安全 #数据毒化 #触发词 #微软研究 #模型检测

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。