图灵机器人公司的创始人兼首席执行官布雷特·阿德科克(Brett Adcock)在周四宣布了一项重大突破——一种全新的机器学习模型,用于人形机器人。这一消息距离公司宣布退出与OpenAI合作仅两周时间,而此次的核心是名为Helix的“通用型”视觉-语言-行动(VLA)模型。

Cover Image

VLA模型是机器人领域的一个新兴概念,它通过视觉和语言指令来处理信息。目前,该领域的代表是谷歌DeepMind的RT-2模型,它结合视频和大型语言模型(LLM)来训练机器人。

Helix的工作原理与之类似,通过结合视觉数据和语言提示,实时控制机器人。图灵机器人公司表示,Helix具有强大的物体泛化能力,能够通过自然语言指令拿起数千种从未在训练中见过的家用物品,这些物品的形状、大小、颜色和材质各不相同。例如,你可以告诉机器人“将饼干袋交给右边的机器人”或者“从左边的机器人那里接过饼干袋并放入打开的抽屉”。这两个场景都涉及两台机器人协同工作,因为Helix被设计为同时控制两台机器人,一台协助另一台完成各种家务任务。

图灵机器人公司通过其02人形机器人在家庭环境中的应用展示了VLA模型的潜力。家庭环境对机器人来说一直是一个巨大的挑战,因为它们缺乏仓库和工厂的结构和一致性。学习和控制的困难是复杂机器人系统进入家庭的主要障碍。高昂的价格也是原因之一,大多数仿人机器人公司优先为工业客户制造机器人,通过提高可靠性和降低成本后再考虑进入家庭市场。家务劳动的机器人化可能还需要几年时间。

2024年,当TechCrunch参观图灵机器人公司位于旧金山湾区的办公室时,阿德科克展示了其人形机器人在家庭环境中的一些应用场景。当时看来,这项工作似乎并未被优先考虑,因为图灵机器人公司专注于与宝马等公司的企业试点项目。

然而,随着周四Helix的发布,图灵机器人公司明确表示家庭环境应成为其优先发展的独立领域。家庭环境是一个复杂且具有挑战性的测试场所。例如,教会机器人在厨房完成复杂任务,可以使其在不同环境中执行更广泛的行动。

图灵机器人公司指出:“为了让机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为,尤其是对于从未见过的物体。目前,教会机器人哪怕一个新行为都需要付出巨大的人力成本:要么是数小时的博士级专家手动编程,要么是数千次的演示。”

手动编程无法适应家庭环境的规模化需求,因为家庭环境中存在太多未知因素。厨房、客厅和浴室的布局千差万别,烹饪和清洁工具也各不相同。此外,人们会在家中制造混乱、重新摆放家具,并且对环境光线有不同的偏好。这种手动编程的方法耗时且成本高昂,尽管图灵机器人公司在这方面拥有足够的资金支持。

另一种选择是大量的训练。实验室中用于抓取和放置物体的机械臂通常采用这种方法。然而,为了让演示能够应对高度可变的任务,需要进行数百小时的重复训练。机器人要一次性成功地抓取某个物体,就需要在过去进行过数百次的练习。

像目前许多与仿人机器人相关的工作一样,Helix的研究仍处于非常早期的阶段。观众需要注意,为了制作这种帖子中看到的短小精悍的视频,背后需要大量的工作。今天的发布本质上是一种招聘工具,旨在吸引更多的工程师加入,以推动该项目的发展。


文章标签: #人形机器人 #语音控制 #家庭自动化 #机器学习 #人工智能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。