在2025年CES展会上,英伟达推出了一款能在电脑桌面运行的AI虚拟形象原型。这款名为R2X的AI助手,外形酷似游戏角色,能协助用户在电脑上操作各类应用程序。

1736619210023

R2X的虚拟形象是借助英伟达的AI模型进行渲染和动画制作的,用户可选择在自己偏好的大型语言模型(LLM)上运行,比如OpenAI的GPT-4o或xAI的Grok。用户可通过文字或语音与R2X交流,向其上传文件以供处理,还能让AI助手查看电脑屏幕或摄像头的实时画面。

近期,科技公司纷纷打造AI虚拟形象,不仅局限于视频游戏领域,还拓展至企业和消费者客户市场。尽管早期的演示看起来有些怪异,但不少人认为这类虚拟形象有望成为AI助手的优质用户界面。英伟达通过R2X,尝试将生成式游戏功能与前沿LLM相融合,打造出一个外形和互动体验都类似人类的AI助手。

英伟达计划在2025年上半年将这些虚拟形象开源。在英伟达看来,这为开发者提供了一种新的用户界面构建方式,用户既能接入自己喜爱的AI软件产品,也能在本地运行这些虚拟形象。

与因隐私问题而延迟推出的微软Recall功能相似,R2X能够持续截取屏幕截图,并通过AI模型进行处理,不过该功能默认处于关闭状态。一旦开启,它能对电脑上运行的应用程序给出反馈,比如协助用户攻克复杂的编程难题。

目前R2X仍处于原型阶段,英伟达也坦承存在一些待解决的漏洞。在与TechCrunch的演示过程中,英伟达的虚拟形象会给人一种诡异谷的感觉——面部表情有时会定格在奇怪的位置,语气偶尔也会显得过于强硬。而且,当人们工作时,有一个类似人类的虚拟形象盯着自己,总感觉有些别扭。

通常情况下,R2X能够提供有用的指导,并准确识别屏幕上的内容。但有一次,虚拟形象给出了错误的指令,之后竟完全无法查看屏幕了。这可能是底层AI模型(如GPT-4o)的问题,这个例子也反映出这项早期技术的局限性。

在一次演示中,英伟达的产品负责人展示了R2X如何查看并协助用户操作屏幕上的应用程序。具体来说,R2X帮助我们使用Adobe Photoshop的生成式填充功能。我们选择的照片是英伟达首席执行官黄仁勋站在一家亚洲餐厅里,与两名餐厅工作人员在一起。然而,英伟达的虚拟形象产生了幻觉,给出了错误的Photoshop生成式填充功能位置的指令。后来它失去了查看屏幕的能力,但当我们切换使用的AI模型为xAI的Grok后,虚拟形象又恢复了屏幕查看能力。

在另一次演示中,R2X能够从桌面读取一份PDF文件,然后回答有关文件的问题。这一过程得益于本地检索增强生成(RAG)功能,使这些AI虚拟形象能够从文档中提取信息,并利用底层LLM进行处理。

英伟达利用其游戏部门的一些AI模型来塑造这些虚拟形象的外观。为了生成虚拟形象,英伟达采用了RTX神经面孔算法。为了自动控制面部、嘴唇和舌头的动作,英伟达使用了一个名为Audio2Face™-3D的新模型。不过,该模型在某些时候似乎会出现停滞,导致虚拟形象的面部处于尴尬的位置。

此外,公司还表示,这些R2X虚拟形象将能够加入微软Teams会议,充当个人助手。

英伟达的一位产品负责人表示,公司正在努力赋予这些AI虚拟形象代理能力,以便R2X未来能够在桌面采取行动。不过,这些能力似乎还很遥远,而且可能需要与微软和Adobe等软件制造商建立合作伙伴关系,这些公司自身也在努力开发类似的代理系统。

目前还不清楚英伟达是如何为这些产品生成声音的。使用GPT-4o时,R2X的声音与ChatGPT的任何预设声音都不同,而xAI的Grok聊天机器人目前还没有语音模式。


文章标签: #英伟达 #CES展会 #AI虚拟形象 #R2X #人工智能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。