微软专家教你识别恶意AI，四招防范数据污染

确实存在“恶意”人工智能，这类模型专为制造混乱、犯罪活动等不良目的而构建。但即便是合法AI工具也可能被篡改——黑客可以通过投喂污染数据来操控AI，目的是影响其数据集并改变输出结果。

攻击者或许追求更隐蔽的效果，比如植入偏见；也可能意图制造危险错误或恶意建议。AI本质只是工具，无法辨别自身被用于善或恶。若缺乏警惕，任何人都可能成为网络犯罪的受害者。

上周参加汇聚数千名网络安全专家的RSA大会期间，我与微软红队（Microsoft’s red team）的数据专家拉姆·尚卡尔·西瓦·库马尔（Ram Shankar Siva Kumar）深入探讨了AI安全问题。红队作为企业内部的渗透测试团队，专门通过攻击系统来暴露漏洞。

库马尔分享了几个识别AI异常的关键技巧，无论是聊天机器人还是自动化代理。事实证明，识别被污染的AI极其困难。以下是核心建议：

大型科技公司（如OpenAI的ChatGPT、微软Copilot和谷歌Gemini）开发的AI工具更值得信赖——虽非绝对安全，但其团队规模与应急能力更强。相比小众论坛偶然发现的聊天机器人，主流产品至少具备基础可信度。

此前谷歌AI曾坚称德国面积大于加利福尼亚州（实则相反），直到近期才修正单位换算错误。这种“幻觉”现象就像两岁孩童坚信狗都是雄性一样天真。但被污染的AI可能进行更危险的虚构，例如无视医疗建议的安全限制。因此对AI提供的任何指导都应保持合理怀疑。

AI的回答本质是对检索内容的摘要，其质量取决于数据源——而当前许多来源并不可靠。建议像对待朋友分享的八卦那样：追溯原始信息，自行评估来源可信度。需注意AI可能存在断章取义或依赖低质数据集的问题。

维基百科早期教会我们“信任但验证”的原则，这对AI同样适用。当AI表现出异常自信时更需警惕：这个结论合理吗？通过交叉验证多源信息，并思考“创作者为何制作该内容”，能有效提升判断力。

在知识盲区时，选择可信对象比盲目相信更重要。正如网络安全领域的黄金法则：恶意AI的胜利，始于你关闭思考的那一刻。

搜索结果如下