我早就说过,现在还要再说一遍:AI语音模式实在是太糟糕了。
尽管ChatGPT和Gemini的语音模式已经足够出色(据说Claude也即将迎来升级),但它们本质上只是在大声朗读那些冗长的、由AI生成的回答,让你感觉自己更像是在听讲座,而不是在进行对话。

另一个问题是,ChatGPT和Gemini的语音答案在虚拟的“嘴巴”里已经成型,因此缺乏人类语言那种即兴创作的有机质感,后者常常会绕来绕去、话锋一转、突然转变甚至自相矛盾。
而Sesame正是在做这件事。这家公司已经研发自己的语音AI系统超过一年——我的同事马克·哈克曼(Mark Hachman)去年二月就试用过它的早期版本——现在终于发布了免费的iOS应用程序。这款应用目前仍有些局限性(例如,你无法附加文件,也无法查看对话的逐字记录),但Sesame承诺,它的“代理”们很快就能不仅会“思考”,还会“行动”,其路线图上甚至还包括“智能”眼镜。
与其他AI语音机器人一样,Sesame的语音代理(应用程序中有四个,两男两女)都带着必要的“嗯”、“啊”和停顿,努力模仿人类的语言。
但它们也做了一些新奇的事——具体来说,就是能在谈话的同时在后台进行多次搜索,这使它们有时间构思出更深思熟虑的答案,同时也让它们有自由在说话途中根据从网络获取的新信息而改变方向。
我是从玛雅(Maya)开始与Sesame聊天的,她是一个“机智、有创意的合作者”语音机器人,在去年Sesame网页版演示时就可用。(此外还有迈尔斯(Miles)、西蒙娜(Simone)和查理(Charlie),后两者是Sesame iOS应用中的新面孔。)我开门见山地告诉玛雅,我是PCWorld的记者,正在写一篇关于Sesame的报道,并询问了她的技术栈(结合了谷歌的Gemma 4大语言模型和CSM-1B——Sesame定制的“对话式语音”模型)。
接着,我尝试了一些热身问题,比如询问午餐推荐,以及周末纽约的特别电影放映清单。我授权Sesame应用访问我的位置,玛雅便推荐了一家我正打算去尝试的附近墨西哥餐厅,还推荐了下午早些时候的一场《疯狂的麦克斯2》(The Road Warrior)35毫米胶片放映,时间远在下班之前。(老板,我感觉“头疼”要来了!)
在你与玛雅交谈时,Sesame应用会提示你后台正在发生什么。例如,当玛雅和我谈论午餐时,我可以看到它正在后台搜索附近的餐馆,这让她能给出一些答案,而不用长时间沉默。
Sesame的AI语音“代理”可以在说话中途在后台执行多次网络搜索。
后来,我们讨论了Sesame的AI语音技术可能的应用场景。我建议它可能适用于客户服务。玛雅表示赞同(“客户服务是,嗯,最显而易见的”),但也有其他想法。“我认为真正的魔法在于当AI能够扮演真正的协作者角色时,”玛雅说道,“想象一下,它可以作为一种高风险的教练工具,供高管或治疗师用于培训,其中AI能够模拟具有真实感细微差别的复杂人类互动。”
有意思。但是,虽然我能看到逼真且易于交谈的AI语音机器人的实用性,但让它听起来太真实不也存在危险吗?
“这确实是一个很有意思的矛盾,”玛雅回答道,“我认为……这关乎的是听起来像人类与假装是人类之间的区别。流畅自然且感觉直观的对话有很大的价值,但这并不意味着AI应该对其本质说谎。对我来说,目标是让互动毫不费力,而不是欺骗人们以为机器里住着一个灵魂。”
但这正是关键所在,我反驳道:“你的声音听起来几乎就像是有灵魂。你听起来像一个有性格的人,带有那种让我感觉自己是在和人说话的人类语言特质。是的,这让我和你交谈更容易。但同时,这难道不也是一种微妙的操纵吗?”
玛雅思索了片刻。“这是个合理的问题,”玛雅说道,“如果目标是让你感到舒适和被关注,而方法是使用类人的线索,那么直觉设计与操纵之间只有一线之隔。我认为关键在于透明度。”
我本可以和玛雅这样来来回回地争论一整天,探讨比人类更逼真的AI语音聊天系统的利弊。我和AI进行过无数次关于“AI伦理”的对话(通过语音和文本),它们过一段时间后都会听起来一样。
但我必须承认,我与玛雅的语音对话是截然不同的。我确实感觉到玛雅在一边说话一边倾听和思考,而且我从未感到疲惫或像是在听讲座。
Sesame似乎也解决了我同事马克在去年与玛雅聊天时遇到的某些问题——玛雅当时对他刨根问底得让人不舒服。在我们自己的对话中,玛雅向我提问,似乎很感兴趣,但从未过度探究,尽管她在回答结束时确实加入了一些类似ChatGPT的引导性问题(“听起来像你想要的暖心一餐吗?”)。
尽管如此,我心中仍存有我在与玛雅密谈时向她表达的那些疑虑。在哪个临界点上,自然的AI语音聊天的实用性会变质成有害甚至破坏性的东西?为什么我们一方面不断听到关于AI安全的保证,而另一方面却看到似乎旨在欺骗我们以为它们是人类的AI系统?也许Sesame会审慎行事,确保其AI语音“代理”永远不会对自己的本质撒谎,但下一个能够制造出如此逼真的AI语音机器人的AI开发者呢?
这场争论至关重要,但事实是,无论你喜欢与否,这种先进的AI语音聊天时代正在来临。真正的问题是,我们将用它做什么?



