确实存在“恶意”人工智能,这类模型专为制造混乱、犯罪活动等不良目的而构建。但即便是合法AI工具也可能被篡改——黑客可以通过投喂污染数据来操控AI,目的是影响其数据集并改变输出结果。
攻击者或许追求更隐蔽的效果,比如植入偏见;也可能意图制造危险错误或恶意建议。AI本质只是工具,无法辨别自身被用于善或恶。若缺乏警惕,任何人都可能成为网络犯罪的受害者。
上周参加汇聚数千名网络安全专家的RSA大会期间,我与微软红队(Microsoft’s red team)的数据专家拉姆·尚卡尔·西瓦·库马尔(Ram Shankar Siva Kumar)深入探讨了AI安全问题。红队作为企业内部的渗透测试团队,专门通过攻击系统来暴露漏洞。
库马尔分享了几个识别AI异常的关键技巧,无论是聊天机器人还是自动化代理。事实证明,识别被污染的AI极其困难。以下是核心建议:
选择主流平台
大型科技公司(如OpenAI的ChatGPT、微软Copilot和谷歌Gemini)开发的AI工具更值得信赖——虽非绝对安全,但其团队规模与应急能力更强。相比小众论坛偶然发现的聊天机器人,主流产品至少具备基础可信度。
警惕AI虚构内容
此前谷歌AI曾坚称德国面积大于加利福尼亚州(实则相反),直到近期才修正单位换算错误。这种“幻觉”现象就像两岁孩童坚信狗都是雄性一样天真。但被污染的AI可能进行更危险的虚构,例如无视医疗建议的安全限制。因此对AI提供的任何指导都应保持合理怀疑。
核查信息来源
AI的回答本质是对检索内容的摘要,其质量取决于数据源——而当前许多来源并不可靠。建议像对待朋友分享的八卦那样:追溯原始信息,自行评估来源可信度。需注意AI可能存在断章取义或依赖低质数据集的问题。
保持批判思维
维基百科早期教会我们“信任但验证”的原则,这对AI同样适用。当AI表现出异常自信时更需警惕:这个结论合理吗?通过交叉验证多源信息,并思考“创作者为何制作该内容”,能有效提升判断力。
在知识盲区时,选择可信对象比盲目相信更重要。正如网络安全领域的黄金法则:恶意AI的胜利,始于你关闭思考的那一刻。