由前OpenAI高管米拉·穆拉蒂(Mira Murati)创立的Thinking Machines开发了新型AI语音交互模型,该技术采用双AI系统,能够实现支持打断和视觉线索识别的实时对话。
与当今的AI进行语音聊天,感觉可能像老式CB无线电通话一样生硬,你不得不被迫轮流发言。AI不仅要等你把话说完,在你说话期间,它对其他任何事情都毫无感知。同样,当AI说话时,它会忙于生成回复而无暇“思考”其他事情。实际上,AI语音模式只是增加了语音功能的普通AI文本聊天。

这种情况有望改变,这要归功于新一代“交互式”AI模型,它们能够真正跟随对话的起伏变化,甚至在听你实时说话时进行打断。
这些“交互式”模型由前OpenAI高管米拉·穆拉蒂创立的AI初创公司Thinking Machines开发。它们不同于当今的单线程AI模型——后者无法在听你说话的同时进行思考,也无法在说话时对你的话作出反应。相反,这些新模型采用了“多流、微轮转”配置,使其在聆听你说话时能够持续处理输入信息(包括视觉和声音),并且还能根据你所说的内容进行打断。
在一系列演示视频中,Thinking Machines展示了其仍在研究预览阶段的模型,如何在与人类用户的视频聊天中实时做出反应:识别出用户手中的产品,并在用户持续说话时,实时对“动物”类词汇(如“鹿”和“羊”)进行计数。在另一次交互演示中,该模型展现出令人印象深刻的克制力:当人类搭档在句子中间抿了一口咖啡时,它会耐心等待,而不是立刻插话。
在另一个演示中,模型确实按指示进行了打断:当人类说话者误读了单词“acai”的发音时,它实时进行纠正,并纠正了对方关于巴西莓碗起源于阿根廷的这一故意说错的事实陈述。这个演示说明的是,Thinking Machines的AI可以在聆听的同时作出反应,而不是卡住、只能等待发言权。
Thinking Machines实际上采用了一对AI模型:一个“交互”模型,它始终与用户保持“同在”,以200毫秒的快速片段处理输入和输出;同时,一个“背景”模型则负责处理更复杂任务的重度计算,并在准备就绪后将结果传递给速度更快的交互模型。
Thinking Machines的新型交互式AI模型仍在开发中。这家初创公司承认,其模型在应对“很长”的对话时存在困难,并且依赖“可靠的网络连接”才能正常工作。该公司目前的“交互”模型规模也相对较小,因为更大的模型“在这种模式下过于缓慢,无法提供服务”。
尽管如此,Thinking Machines的这种新“全双工”范式可能会成为AI语音聊天的颠覆者,使其感觉流畅自然,而非像《斯莫基与强盗》(Smokey and the Bandit)时代那样勉强的你来我往。



