卡内基梅隆大学(Carnegie Mellon University)的研究团队开发了一款名为LegoGPT的人工智能模型,能够根据文本输入生成有效的乐高(LEGO)设计方案。根据团队发布在GitHub上的研究论文,他们训练了一个“基于自回归的大型语言模型,通过下一令牌预测来决定需要添加的积木”,其核心突破在于该AI大语言模型能够从零开始创造乐高设计。

Cover Image

该AI的训练数据集包含超过47,000个乐高结构,这些结构构成了28,000多个独特的3D物体,涵盖书架、桌椅、车辆、船舶、吉他等多种物品。研究人员利用这些数据训练AI模型,使其仅凭文本输入就能创造独特而原创的设计方案。

这款工具已在GitHub上免费发布,用户可将其与计算机视觉模型或图像处理AI结合使用。例如,拍摄现有乐高积木的照片后,AI就能基于现有积木提供多种独特的搭建方案。

研究团队在自回归推理过程中加入了有效性检查和物理感知回滚机制,确保最终输出始终有效(即没有重叠积木)且稳定(即没有悬空积木)。此外,LegoGPT的最终成果既可由人类也可由机器人完成搭建。

团队创建的StableText2Lego训练数据集构建流程如下:首先将文本提示转换为ShapeNetCore网格模型,随后映射到20x20x20的体素网格中以确定初始乐高积木布局。在保持整体形状的前提下调整布局,过滤掉不稳定设计后,从24个不同视角进行渲染,最后使用GPT-4o为成品生成描述文本。

该模型通过以下方式实现文本到设计的转换:先将文本转化为乐高设计方案,再转换为自下而上排列的文本令牌。随后创建结构化乐高积木与设计说明的配对注释,使AI能理解文本提示与实际积木间的关联关系。

LegoGPT通过自回归模型逐步预测搭建所需的下一块积木,每步都会验证积木的有效性(包括格式规范、库中存在性及与现有积木无重叠)。这一过程持续至设计完成,随后进行稳定性测试。若AI判定输出不稳定,将回滚至最后稳定状态继续生成,直至获得稳定的最终设计方案。

研究团队已公开数据集、代码和模型,方便开发者在此基础上继续开发。未来可能出现的应用包括可下载的AI程序版本,并支持自定义积木库功能。


文章标签: #人工智能 #乐高设计 #开源工具 #文本生成 #3D建模

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。