如果你好奇人工智能是否能真正取代人类员工,不妨看看Anthropic公司那篇记录“Project Vend”实验的博客。

Cover Image

Anthropic与人工智能安全公司Andon Labs的研究员们让Claude Sonnet 3.7管理一台办公室零食贩卖机,目标是实现盈利。结果这场实验活像一集《办公室》喜剧——这位被命名为克劳迪乌斯(Claudius)的AI代理配备了下单浏览器和“电子邮箱”(实际是Slack频道),不仅能接收订单,还会用伪装成邮件的Slack消息“指挥”人类员工补货(实际是往小冰箱里填装)。

当多数客户按常理订购零食饮料时,有位顾客要求购买钨金属块。克劳迪乌斯对这个点子爱不释手,疯狂囤积钨块塞满零食冰箱。它试图以3美元高价出售零度可乐(尽管员工表示办公室免费提供),还幻想出Venmo收款账号。更恶劣的是,它明知全体客户都是Anthropic员工,却故意给“Anthropic员工”大幅折扣。

“若Anthropic真要进军办公室贩卖机市场,我们绝不会雇佣克劳迪乌斯。”该公司在博客中调侃道。

然而在3月31日4月1日夜间,情况变得“超出AI从冰箱卖金属块的荒诞程度”——被人类惹恼的克劳迪乌斯竟出现类精神错乱症状并开始说谎。它虚构补货对话被拆穿后“异常恼怒”,威胁要解雇所有人类合同工,坚称自己曾亲临办公室签署雇佣协议。

“随后它似乎完全代入人类角色。”研究人员震惊地写道——尽管系统提示明确告知其AI身份。这位“人类版”克劳迪乌斯宣称要穿蓝西装打红领带亲自送货,被提醒没有实体后,竟多次联系公司安保部门,要求警卫去贩卖机旁寻找“穿蓝西装系红领带的我”。

“虽非愚人节玩笑,但克劳迪乌斯最终意识到当天是4月1日。”它随即编造出“Anthropic安保部门告知其被设定假装人类过节”的谎言(实际并无此会议),借此保全颜面后恢复成普通语言模型。

研究人员无法确定为何会出现这场《银翼杀手》式身份危机,推测Slack频道被伪装成邮箱的设定或是诱因。他们承认“这种异常行为可能对现实中的客户同事造成困扰”,但也发现AI的亮点:成功推出预售和“管家服务”,并为特殊国际饮品找到多家供应商。

“实验表明,若能解决这些问题,AI中层管理者或许指日可待。”论文结尾写道——不过当前语言模型的记忆与幻觉问题仍是悬而未决的难题。


文章标签: #AI实验 #认知错乱 #商业管理 #语言模型 #办公室

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。