Meta AI 研究职员正在努力战胜这一寻衅,以便 AI 系统能够更好地识别儿童创作的各种不同的人物图画。

Meta 很高兴地宣告一种创始的方法,可以自动为儿童手绘人物人物和类人角色(即有两条胳膊、两条腿、一个头等的角色)制作动画。

将这些图画维妙维肖,在几分钟内利用 AI。
通过将它们上传到Meta 的原型系统,父母和孩子可以体验看着他们的画变成舞蹈、跳跃和跳跃的动人角色的愉快。
他们乃至可以下载他们的动画图画与朋友和家人分享。
如果父母乐意,他们也可以提交这些图纸以帮助改进 AI 模型。

通过教授 AI 以这种范例的人类创造力形式有效事情,Meta 希望这个项目将使Meta 更靠近于构建能够从人类的角度理解天下的 AI。
Meta 也希望这项事情能够引发更多关于利用人工智能来增强人们的创造力并引发这项技能的富有想象力的新用场的研究。

Meta AI运用人工智能让儿童的绘画维妙维肖生成动态视频

为什么自动 AI 动画工具对儿童绘画不起浸染

Meta 的目标是建立一个人工智能系统,该系统可以在没有任何人为辅导的情形下,以高成功率识别儿童绘画中的人形人物并自动为其制作动画。
虽然许多人工智能工具和技能旨在处理逼真的人类图像,但儿童绘画增加了一定程度的多样性和不可预测性,这使得识别所描述的内容变得更加繁芜。
儿童画中的“人”有许多不同的形式、颜色、大小和比例,在身体对称性、形态和视角方面险些没有相似之处。
Meta 通过四个步骤来应对这一 AI 寻衅,在每个阶段微调Meta 的方法以适应儿童绘画中存在的巨大多样性。

通过物体检测识别人形

为儿童画人物画动画的第一步是将人物与背景和图片中的其他类型的人物区分开来。
利用现有技能的工具检测在儿童绘画上效果很好,但分割掩码不足准确,无法用于动画。
为理解决这个问题,Meta 改为利用从工具检测器得到的边界框,并运用一系列形态学操作和图像处理步骤来得到掩码。

在提取儿童绘画中的人形字符进行处理时,Meta 利用 Meta AI 基于卷积神经网络的工具检测模型 Mask R-CNN

检测器

. Mask R-CNN 在最大的公开可用分割数据集之一上进行了预演习,但它由真实天下工具的照片组成,而不是图纸。
为了处理绘图,须要对模型进行微调,Meta 利用 ResNet-50+FPN 进行了微调,以预测单个类别的“人物”。
Meta 约请 Meta 的同事利用Meta 的系统分享他们孩子的艺术作品并为其制作动画,Meta 得到了大约 1,000 幅帮助Meta 演习 AI 的图画。

在微调过程中,网络在检测测试数据集中的任务方面做得很好。
Meta 不雅观察到的失落败案例分为四类:不包括全体图形、未将图形与背景分开、未将几个靠近的图形分开以及缺点地识别非人类图形(例如树)。
Meta 相信这些类型的失落败源于演习集中人物的多样性,并且随着模型的学习越来越多,模型将连续改进。

利用角色遮罩从场景中提升人形

从绘图中识别和提取人物后,准备动画的下一步是在称为遮罩的过程中将其与场景的其他部分和背景分离。
蒙版必须密切反响图形的轮廓,由于它将用于创建网格,然后将其变形以天生动画。
精确完成后,蒙版将包含角色的所有部分,而不会包含背景中的任何内容。

只管 Mask R-CNN 可以输出掩码,但Meta 创造它们不适宜动画。
当身体部位的外不雅观变革很大时,预测的掩码每每无法捕捉到全体图形,如下图所示,它显示了一个大的黄色三角形的身体和一个单一的铅笔笔划的手臂。
预测的掩码也常常由于遗漏了“空心”字符的中间而失落败,或者被绘制为轮廓而不是着色的字符。

相反,Meta 开拓了一种基于经典图像处理的方法,该方法对这些变革更加稳健。
利用这种方法,Meta 利用每个检测到的字符的预测边界框裁剪图像。
然后Meta 运用自适应阈值和形态学关闭/拨号操作,从框的边缘添补,并假设蒙版是未被添补的最大多边形。
虽然这种方法对付提取适用于动画的准确蒙版来说大略而有效,但在背景凌乱、人物靠得很近或纸张在页面上有皱纹、撕裂或阴影时,它可能会失落败。

来自 Mask R-CNN 的分割掩码有时无法严格遵照角色的形式(中间、顶部)或包括角色的所有部分,例如手臂(中间、底部)。
在许多情形下,在 Mask R-CNN 预测边界框上利用图像处理管道会产生更适宜动画的掩码(右图)。

通过索具准备动画

孩子们绘制的人物具有各种各样的身体形状,远远超出了具有头部、手臂、腿部和躯干的传统人类形状。
许多孩子开始将人类描述成常日被称为“蝌蚪人”的人,没有躯干,手臂和腿直接连接到头部。
一些孩子发展到“过渡”身材,腿从头部伸出,手臂从大腿伸出。
Meta 须要一种能够处理这种形态变革的索具方法。

Meta 利用 AlphaPose,一个为人体姿势检测演习的模型,来识别人物的关键点,这些关键点可以作为臀部、肩膀、肘部、膝盖、手腕和脚踝。
AlphaPose 是在真人图像上进行演习的,因此在Meta 将其调度为检测儿童绘画中的姿势之前,Meta 必须重新演习它以处理儿童绘画中存在的变革类型。
Meta 通过内部网络和注释儿童人物画的小数据集来做到这一点。
然后,利用在这个初始数据集上演习的姿势检测器,Meta 创建了一个内部工具,许可父母上传和动画他们孩子的图画,并许可Meta 利用上传的图画进行额外的演习。
随着更多数据的进入,Meta 反复重新演习模型,直到达到高准确度为止。

利用 3D 动作捕捉为 2D 人物制作动画

一旦Meta 有了蒙版和联合预测,Meta 就拥有了制作动画所需的统统。
Meta 首先利用提取的蒙版天生网格,并利用原始绘图对其进行纹理化。
利用预测的枢纽关头位置,Meta 为角色创建骨架。
通过旋转骨骼并利用新的枢纽关头位置使网格变形,Meta 可以将角色移动到各种姿势上。
通过将角色移动到一系列连续的姿势,Meta 可以创建动画。
Meta 可以根据枢纽关头预测的可信度选择不同的动作来运用:如果手臂和腿都被精确预测,动画可以无缝地发生。
但是如果绘图中不存在肢体,则其枢纽关头置信度值将很低,Meta 将不得不放弃须要该肢体的动画

为了利用 3D 动作捕捉为 2D 人物制作动画,Meta 利用了许多儿童利用Meta 所说的扭曲视角进行绘画的事实。
许多孩子最初从他们最随意马虎辨认的角度绘制身体部位是很常见的,这可能与他们在真实人类身上涌现的办法不同。
例如,他们方向于从侧面绘制腿和脚,从正面绘制头部和躯干。

Meta 在运动重定向步骤中利用了这种不雅观点。
对付下半身和上半身,Meta 会自动确定是从前视图还是侧视图更随意马虎识别运动。
利用选定的视图,Meta 将运动投影到单个 2D 平面上并利用它来驱动角色。
Meta 利用通过 Mechanical Turk 运行的感知用户研究来验证这种运动重定向方法的结果。

左图:在制作动画之前,Meta 从绘图中创建了一个绑定角色。
右图:Meta 通过将一帧运动捕捉数据投影到 2D 平面上并旋转角色的四肢以匹配项目的四肢来调度角色。
Meta 可以从正面(顶行)、侧面(中行)和扭曲的视角(底行)投影运动捕捉数据。

将扭曲的视角考虑在内是有帮助的,由于许多类型的运动不会完备落在单个投影平面上。
例如,跳绳时,手臂和手腕每每紧张在额平面内移动,而波折的腿则方向于在矢状平面内移动。
因此,Meta 不会为运动捕捉姿势确定单个运动平面,而是分别确定上半身和下半身的投影平面。

利用 AI 为更繁芜的动画供应动力

Meta 希望Meta 的动画工具能够引发人们对他们的绘画进行试验,并将其带入未知的方向。

通过分享Meta 的事情,Meta 也希望鼓励更多业余绘图领域的打算机视觉事情。
该项目的未来研究可以集中在识别和运用更定制的动作到人物的子种别,例如超级英雄、公主、怪物和忍者。
例如,对角色各部分进行更细粒度的剖析也将有助于识别触角、尾巴和年夜氅,并运用次要运动元素以增加动画的吸引力。
大概有一天,人工智能系统可以绘制繁芜的图画,然后利用多个相互交互的奇幻角色和背景元素立即创建一部详细的动画卡通。
有了 AR 眼镜,这些故事乃至可以在现实天下中维妙维肖,与刚才画它的孩子舞蹈或交谈。
可能性与人类的想象力一样无限。