量子位 宣布 | "大众年夜众号 QbitAI

先展示成果。

下面是一组动图,展示的是AI如何根据一段视频,脑补出未来64帧的画面。
不雅观看解释:当视频外框为绿色时,为真实视频;当外框变红时,为AI天生的“假”视频。
最左边是本日要先容的方法,中间和右边用以前方法达到的效果。

须要解释的是,每个动作都没有进行针对性的演习,所有视频都是同一个模型天生。

这个AI能猜测一长段未来并生成逼真的视频震撼了老铁

是不是效果惊人的好?这个能预测并脑补未来视频的AI,几位学者的共同成果:

密歇根大学:Ruben Villegas、Yuliang Zou、Sungryull Sohn

Adobe研究所:Jimei Yang

北京航空航天算夜学:Xunyu Lin

Google大脑:Honglak Lee

论文择要

他们的论文是《通过分层预测来学习天生长期未来》(Learning to Generate Long-term Future via Hierarchical Prediction)。

顾名思义,在论文中他们提出利用分层的方法,对视频的未来进行长期预测。
为了避免递归像素级预测中的固有复合偏差,作者建议首先估计输入帧中的高层级构造,然后预测未来构造演化的办法,末了通过不雅观察过去的单帧和预测的高层级构造,来构建未来的帧,而不必不雅观察任何像素级预测。

通过循环不雅观察预测帧,很难进行长期视频预测。
由于随着预测进一步深入,像素空间中的小偏差指数地放大。
而新的方法通过肃清不雅观察预测帧的须要来防止像素级缺点传播。

这个模型是用LSTM和基于类比的编解码卷积神经网络的组合构建的,它们分别独立地预测视频构造并产生未来帧。

在实验中,这个模型在Human 3.6M和Penn Action数据集上,对人类动作的长期像素级视频预测任务进行了评估,并显示出比现有技能更好的结果。

构造概览

这是像素级视频预测的总体层次化方法。
这个算法首先不雅观察过去的帧,并估计每个帧中的高层级构造(人类姿态xy坐标)。
然后利用估计的构造来预测未来的构造序列办法。

末了,这个算法基于末了一个不雅观测帧,按照所估计构造和预测构造序列,天生未来帧。
下图 绿框表示输入到网络,红框表示从网络中输出。

数值评估

对付效果的评估,利用了类似Vondrick等人的人类生理-物理定量评估标准。
这里也利用了Amazon Mechanical Turk (AMT) 的做事,来鉴别哪一个视频更逼真。

评估结果这里略过了,当然是更好。

其余基于运动的像素级评估,剖析和掌握实验表明,分层方法是办理长期像素级视频预测问题的精确一步。

长期帧天生

除此以外,如果能给定准确的未来姿势轨迹,这个模型还能天生多达1000帧的视频。
效果如下图所示。
这也被认为进一步证明了分层预测的精确性。

局限和未来

只管效果惊人,几位作者表示他们的方法并不完美,并且有以下局限有待连续办理。

· 自动创造构造

这次论文试用了姿态注释作为构造信息,未来的目标是自动创造。

· 预测更多未来

目前这个网络智能预测一种未来的结果。

· 处理背景

这是一个更具寻衅的任务,目前网络还弗成思议背景未来会如何变革。

论文和代码

论文地址:

https://arxiv.org/abs/1704.05831

关于代码:

他们说“coming soon”

==== 分隔线 =====

招聘

我们正在招募编辑、运营等岗位,事情地点在北京中关村落,期待你的到来,一起体验人工智能的风起云涌。

干系细节,请在量子位公众年夜众号(ID:QbitAI)对话界面,回答:“招聘”两个字。

One More Thing…

本日AI界还有哪些事值得关注?在量子位"大众年夜众号会话界面回答“本日”,看我们全网包罗的AI行业和研究动态。
笔芯~

其余,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的互换群里。