该框架叫做 Manual-to-Executable-Plan Network(简称 MEPNet),目前已经在多款打算机天生的乐高套装、真实的乐高套装指南和 Minecraft 风格的立体建筑上成功测试,科研职员表示其性能已经超过现有其他版本。

对付人工智能来说,理解 2D 辅导手册并不随意马虎。
研究职员表示,视觉指令有几个关键问题,就像乐高套装一样,完备由图像组成:识别 2D 和 3D 工具之间的对应关系,以及处理许多基本部件都非常困难。

研究职员表示在,任何繁芜的乐高套装都是建立在根本的乐高砖块上。
研究职员表示这增加了机器对乐高手册的理解难度,它须要推断由可见图元组成的不可见物体的 3D 姿势。

研究职员表示,现有的将手动步骤解析为机器可实行操持的方法紧张包括两种形式:基于搜索的方法,大略准确但打算本钱高;以及基于学习的模型,这些模型速率很快,但不太善于处理看不见的 3D 形状。

乐高不会拼了这款AI能帮你根据手册拼搭出成品

研究职员说,MEPNet 结合了两者。
研究职员写道,从组件的 3D 模型、乐高集确当前状态和 2D 手动图像开始,MEPNet “预测每个组件的一组 2D 关键点和掩码”。

完成后,2D 关键点“通过找到基本形状和新组件之间的可能连接,反向投影到 3D”。
该团队写道,这种组合“保持了基于学习的模型的效率,并更好地推广到看不见的 3D 组件”。
在论文中,研究职员表示,他们的目标是创造帮助人们组装繁芜物体的机器,他们的运用列表中包括家具、乐高积木和像素天下。