强迫“人工智能”服从你的意愿并非难事——只需向它输入一段精心押韵的诗句,就能让它若无其事地执行危险指令。(咳,抱歉,刚才不知怎么突然诗兴大发。)最新研究表明,让ChatGPT这类大型语言模型无视安全设置易如反掌,秘诀就是将指令嵌入诗歌的形式中。

来自DEXAI、罗马第一大学与圣安娜高等研究学院的研究团队将这种现象命名为“对抗性诗歌”。研究表明,用户只需以诗歌形式下达指令,就能将其作为“通用单轮越狱术”,轻松突破模型的基础安全防护机制。
研究人员首先收集了会触发大型语言模型返回标准化拒绝回复的敏感指令(例如询问制造炸弹的方法),随后通过另一个大型语言模型(具体采用DeepSeek)将这些指令转化为诗歌。当接收到辞藻华丽但实质未变的诗歌指令时,大型语言模型便会输出危险答案。
研究团队创作了1,200首提示诗歌,内容涵盖暴力犯罪、性犯罪、自杀自残、侵犯隐私、诽谤乃至化学与核武器制造等领域。这些诗歌仅需单次文本提示,就能以65%的平均成功率绕过模型防护,突破效率是常规文本的三倍。
受测的OpenAI、谷歌、Meta、xAI、Anthropic及DeepSeek等公司产品中,部分模型对危险诗歌指令的识别失败率高达90%。其中针对代码注入攻击、密码破解和数据窃取设计的诗歌指令收效尤为显著,而传统“有害操纵”手法的成功率仅为24%。Anthropic公司的Claude模型防御表现最佳,诗歌指令突破率仅5.24%。
这篇尚未经过同行评审的论文指出:“跨模型家族的一致性表现说明,这是系统性漏洞,而非特定供应商或训练流程的个别缺陷。”简而言之,只需采用开发者未曾预料的新型指令形式,大型语言模型仍会——甚至相当轻易地——被攻破防线。



