MIT研发AI机器人系统：只需口头描述就能制作家具

计算机辅助设计（CAD）系统是设计日常物理对象的成熟工具，但CAD软件需要专业知识才能精通，而且许多工具包含大量细节，不适合头脑风暴或快速原型设计。

为让非专业人士更快、更便捷地进行设计，MIT和其他机构的研究人员开发了一个AI驱动的机器人组装系统，让人们只需用文字描述就能构建物理对象。

系统工作原理

这个系统使用生成式AI模型根据用户的提示构建对象的几何3D表示。然后，第二个生成式AI模型根据所需对象的功能和几何形状推理出不同组件应该放置的位置。

系统可以使用机器人组装自动从预制部件构建对象，还可以根据用户的反馈迭代设计。

研究团队使用这个端到端系统用两种类型的预制组件制造了家具，包括椅子和书架。这些组件可以随意拆卸和组装，减少了制造过程中产生的废物。

在用户评估中，超过90%的参与者更喜欢他们AI驱动系统制造的对象，相比其他方法有明显优势。

虽然这项工作是初步演示，但该框架对于快速原型制作复杂对象（如航空航天组件和建筑对象）特别有用。从长远来看，它可用于在家中制作家具或其他物品，无需从中央设施运输笨重产品。

“迟早，我们希望能够与机器人和AI系统交流，就像我们彼此交流一样，共同制造东西。我们的系统是实现这一未来的第一步，“论文第一作者、MIT电气工程与计算机科学系（EECS）和建筑系研究生Alex Kyaw说。

虽然生成式AI模型擅长从文本提示生成3D表示（称为网格），但大多数模型不会生成具有机器人组装所需的组件级细节的统一几何表示。

将这些网格分离成组件对模型来说具有挑战性，因为组件分配取决于对象及其部分的几何形状和功能。

研究人员使用视觉语言模型（VLM）来解决这些挑战——这是一种强大的生成式AI模型，已经过预训练以理解图像和文本。他们让VLM找出两种类型的预制部件（结构部件和面板部件）如何组合在一起形成对象。

“有很多方法可以在物理对象上放置面板，但机器人需要查看几何形状并对其进行推理以做出决策。通过作为机器人的眼睛和大脑，VLM使机器人能够做到这一点，“Kyaw说。

用户在整个过程中保持在场，可以通过给模型新的提示来优化设计，例如"只在靠背上使用面板，不要在座位上”。

“设计空间非常大，因此我们通过用户反馈缩小范围。我们相信这是最好的方法，因为人们有不同的偏好，为每个人构建理想化的模型是不可能的，“Kyaw说。

“人在回路中的过程允许用户引导AI生成的设计，并对最终结果有归属感，“Gupta补充道。

一旦3D网格最终确定，机器人组装系统使用预制部件构建对象。这些可重复使用的部件可以拆卸并重新组装成不同的配置。

在未来，研究人员希望增强系统以处理更复杂和细微的用户提示，例如由玻璃和金属制成的桌子。此外，他们希望纳入额外的预制部件，如齿轮、铰链或其他活动部件，使对象具有更多功能。

“我们的希望是大幅降低设计工具的使用门槛。我们已经证明，我们可以使用生成式AI和机器人技术以快速、便捷和可持续的方式将想法变成物理对象，“Davis说。

来源：MIT News