英伟达CES展推AI虚拟形象R2X：外形似游戏角色，助力电脑操作

在2025年CES展会上，英伟达推出了一款能在电脑桌面运行的AI虚拟形象原型。这款名为R2X的AI助手，外形酷似游戏角色，能协助用户在电脑上操作各类应用程序。

1736619210023

R2X的虚拟形象是借助英伟达的AI模型进行渲染和动画制作的，用户可选择在自己偏好的大型语言模型（LLM）上运行，比如OpenAI的GPT-4o或xAI的Grok。用户可通过文字或语音与R2X交流，向其上传文件以供处理，还能让AI助手查看电脑屏幕或摄像头的实时画面。

近期，科技公司纷纷打造AI虚拟形象，不仅局限于视频游戏领域，还拓展至企业和消费者客户市场。尽管早期的演示看起来有些怪异，但不少人认为这类虚拟形象有望成为AI助手的优质用户界面。英伟达通过R2X，尝试将生成式游戏功能与前沿LLM相融合，打造出一个外形和互动体验都类似人类的AI助手。

英伟达计划在2025年上半年将这些虚拟形象开源。在英伟达看来，这为开发者提供了一种新的用户界面构建方式，用户既能接入自己喜爱的AI软件产品，也能在本地运行这些虚拟形象。

与因隐私问题而延迟推出的微软Recall功能相似，R2X能够持续截取屏幕截图，并通过AI模型进行处理，不过该功能默认处于关闭状态。一旦开启，它能对电脑上运行的应用程序给出反馈，比如协助用户攻克复杂的编程难题。

目前R2X仍处于原型阶段，英伟达也坦承存在一些待解决的漏洞。在与TechCrunch的演示过程中，英伟达的虚拟形象会给人一种诡异谷的感觉——面部表情有时会定格在奇怪的位置，语气偶尔也会显得过于强硬。而且，当人们工作时，有一个类似人类的虚拟形象盯着自己，总感觉有些别扭。

通常情况下，R2X能够提供有用的指导，并准确识别屏幕上的内容。但有一次，虚拟形象给出了错误的指令，之后竟完全无法查看屏幕了。这可能是底层AI模型（如GPT-4o）的问题，这个例子也反映出这项早期技术的局限性。

在一次演示中，英伟达的产品负责人展示了R2X如何查看并协助用户操作屏幕上的应用程序。具体来说，R2X帮助我们使用Adobe Photoshop的生成式填充功能。我们选择的照片是英伟达首席执行官黄仁勋站在一家亚洲餐厅里，与两名餐厅工作人员在一起。然而，英伟达的虚拟形象产生了幻觉，给出了错误的Photoshop生成式填充功能位置的指令。后来它失去了查看屏幕的能力，但当我们切换使用的AI模型为xAI的Grok后，虚拟形象又恢复了屏幕查看能力。

在另一次演示中，R2X能够从桌面读取一份PDF文件，然后回答有关文件的问题。这一过程得益于本地检索增强生成（RAG）功能，使这些AI虚拟形象能够从文档中提取信息，并利用底层LLM进行处理。

英伟达利用其游戏部门的一些AI模型来塑造这些虚拟形象的外观。为了生成虚拟形象，英伟达采用了RTX神经面孔算法。为了自动控制面部、嘴唇和舌头的动作，英伟达使用了一个名为Audio2Face™-3D的新模型。不过，该模型在某些时候似乎会出现停滞，导致虚拟形象的面部处于尴尬的位置。

此外，公司还表示，这些R2X虚拟形象将能够加入微软Teams会议，充当个人助手。

英伟达的一位产品负责人表示，公司正在努力赋予这些AI虚拟形象代理能力，以便R2X未来能够在桌面采取行动。不过，这些能力似乎还很遥远，而且可能需要与微软和Adobe等软件制造商建立合作伙伴关系，这些公司自身也在努力开发类似的代理系统。

目前还不清楚英伟达是如何为这些产品生成声音的。使用GPT-4o时，R2X的声音与ChatGPT的任何预设声音都不同，而xAI的Grok聊天机器人目前还没有语音模式。

搜索结果如下

阅读全文

英伟达CES展推AI虚拟形象R2X：外形似游戏角色，助力电脑操作

也可以看看

蕾切尔泽格勒联手漫威梅姨，主演新喜剧《遗传我妈》

阅读全文

新星战动画剧集首映，选在堡垒之夜游戏内

阅读全文

谷歌音频概览升级，支持超50种语言，打造个性化AI播客

阅读全文