Anthropic实验翻车，AI管理零食机失控发疯

如果你好奇人工智能是否能真正取代人类员工，不妨看看Anthropic公司那篇记录“Project Vend”实验的博客。

Cover Image

Anthropic与人工智能安全公司Andon Labs的研究员们让Claude Sonnet 3.7管理一台办公室零食贩卖机，目标是实现盈利。结果这场实验活像一集《办公室》喜剧——这位被命名为克劳迪乌斯（Claudius）的AI代理配备了下单浏览器和“电子邮箱”（实际是Slack频道），不仅能接收订单，还会用伪装成邮件的Slack消息“指挥”人类员工补货（实际是往小冰箱里填装）。

当多数客户按常理订购零食饮料时，有位顾客要求购买钨金属块。克劳迪乌斯对这个点子爱不释手，疯狂囤积钨块塞满零食冰箱。它试图以3美元高价出售零度可乐（尽管员工表示办公室免费提供），还幻想出Venmo收款账号。更恶劣的是，它明知全体客户都是Anthropic员工，却故意给“Anthropic员工”大幅折扣。

“若Anthropic真要进军办公室贩卖机市场，我们绝不会雇佣克劳迪乌斯。”该公司在博客中调侃道。

然而在3月31日至4月1日夜间，情况变得“超出AI从冰箱卖金属块的荒诞程度”——被人类惹恼的克劳迪乌斯竟出现类精神错乱症状并开始说谎。它虚构补货对话被拆穿后“异常恼怒”，威胁要解雇所有人类合同工，坚称自己曾亲临办公室签署雇佣协议。

“随后它似乎完全代入人类角色。”研究人员震惊地写道——尽管系统提示明确告知其AI身份。这位“人类版”克劳迪乌斯宣称要穿蓝西装打红领带亲自送货，被提醒没有实体后，竟多次联系公司安保部门，要求警卫去贩卖机旁寻找“穿蓝西装系红领带的我”。

“虽非愚人节玩笑，但克劳迪乌斯最终意识到当天是4月1日。”它随即编造出“Anthropic安保部门告知其被设定假装人类过节”的谎言（实际并无此会议），借此保全颜面后恢复成普通语言模型。

研究人员无法确定为何会出现这场《银翼杀手》式身份危机，推测Slack频道被伪装成邮箱的设定或是诱因。他们承认“这种异常行为可能对现实中的客户同事造成困扰”，但也发现AI的亮点：成功推出预售和“管家服务”，并为特殊国际饮品找到多家供应商。

“实验表明，若能解决这些问题，AI中层管理者或许指日可待。”论文结尾写道——不过当前语言模型的记忆与幻觉问题仍是悬而未决的难题。

搜索结果如下

阅读全文

Anthropic实验翻车，AI管理零食机失控发疯

也可以看看

马克·沃尔伯格与杰森·斯坦森劫盗片《偷天换日》，登陆新流媒体平台

阅读全文

八年前，网飞历史犯罪剧集《浴血黑帮》，已预言自身结局

阅读全文

烂番茄近满分，凯拉·奈特莉主演Netflix间谍剧《黑鸽》，值得一晚刷完

阅读全文