近日,在NeurIPS揭橥的一篇论文中,研究者提出了一个基于剖析的综合学习框架,可以根据给定的音乐产生与之相匹配的舞蹈动作。

紧张内容包括:

研究者首先先容了从音乐到舞蹈的一种新的跨模态天生任务;其次,提出了一种新颖的“分解—合成”框架,将繁芜的舞蹈与以音乐为条件的基本动作进行拆解组合;模型所呈现出的舞蹈不仅真实多样,而且风格匹配,节拍同等;末了,研究者供应了一个大规模的音乐和舞蹈相匹配的数据集,该数据集与源代码和模型一起可以从研究者网站上得到。

GitHub:

https://github.com/NVlabs/Dancing2Music

让AI随音乐起舞DJdrop the beat

随着音乐翩翩起舞是人类的本能。
然而,学习创建“音乐—舞蹈”天生过程的模型是一个具有寻衅性的问题。

衡量音乐和舞蹈之间的干系性须要付出巨大的努力,由于人们须要考虑音乐、舞蹈风格和节奏等多个方面。

此外,舞蹈本身是多模态的,一个姿势可能有多个动作。

在这篇论文中,研究者提出了一个基于剖析的综合学习框架,可以从音乐中产生舞蹈。

在剖析阶段,研究者将舞蹈分解成一系列基本的舞蹈动作,通过这些动作,模型可以学习如何移动。

在合成阶段,模型根据输入的音乐创建多个舞蹈动作,来形成一组完全的舞蹈动作。
结果表明,该方法可以从音乐中合成真实、多样、与音乐风格同等且合拍的舞蹈动作。

图1:“分解—合成”框架的示意图

当人们听到某些音乐时,会不由自主地拍手、跺脚或扭动。
日常生活中,音乐引发了人们舞动的激情亲切。

通过即兴的动作,人们将其编为舞蹈。
然而,只有通过适当的演习和不断的练习,专业的编舞者才能学会以充满艺术感的优雅且节奏幽美的办法编排舞蹈。

因此,随着音乐舞蹈是一个既须要天赋又须要后天习得的创造过程。
本文提出了一个音乐舞蹈创作过程的打算模型。

受上述不雅观察的启示,研究者利用先验知识来设计“音乐—舞蹈”框架,并利用大量成对的音乐和舞蹈数据对其进行演习。

这是一项充满寻衅性同时也很有趣的天生任务,在艺术内容创作方面具有一定的潜力,如戏剧演出、艺术体操和花样滑冰。

此外,通过对人类将自身动作与音乐相匹配进行建模,可以更好地理解跨模态合成。

现有的方法将是合成任务转化为基于相似度的检索问题,创造力有限。
因此,研究者决定从天生的角度来制订任务。

从音乐中合成舞蹈是一个极具寻衅性的天生问题。

首先,为了使舞蹈和音乐保持同步,所产生的舞蹈动作必须超越给定的音乐风格和节拍,而要超出真实感。

其次,舞蹈本身是多模态的,也便是说,任何时候一个舞蹈姿势可能会伴随着各种不同的舞蹈动作。

末了,舞蹈中身体永劫光在空间中运动,具有较高的运动学繁芜性。

在本文中,研究者建议通过“分解—合成”框架从音乐中合成舞蹈。

这个框架首先学习在分解/剖析阶段如何运动(即产生基本运动),然后在合成/合成阶段学习如何合成成套动作(即将基本运动组织成一个序列)。

在自上而下的分解阶段中,研究者利用运动节拍检测器对从真实舞蹈序列中对提取出的舞蹈单元进行归一化。

然后,研究者演习DU-VAE对舞蹈单元进行建模。

在自下而上的创作阶段中,给定了匹配的一段音乐和舞蹈,利用MM-GAN学习如何根据给定音乐编排舞蹈。

在测试阶段,研究者从输入的音乐中提取音乐风格和节拍,然后以循环办法合成一系列舞蹈单元,末了,将节拍检测器运用于天生的舞蹈单元序列输出舞蹈。

在给定的音乐播放时,研究者首先提取风格和节拍信息,然后根据音乐风格按顺序天生一系列舞蹈单元,末了根据提取的音频节拍来变换舞蹈动作。

图2:(a)从音乐和舞蹈中提取节拍。
对付音乐,通过节拍的强弱规律来提取周期性的节拍。
对付舞蹈,研究者打算偏移强度并提取运动节拍。
研究者举例解释了与匹配的音乐和运动节拍相对应的三个示例帧:侧臂抬起(赤色),手抬起(黄色)和肘部伸出(紫色)。
(b)舞蹈队的例子。
每个舞蹈单元的长度相同,并在特定的节拍韶光内分配了运动节拍。

为了促进这种跨模态视听天生任务,研究者网络了超过71万小时的360K视频剪辑。
数据中有三个代表性的舞蹈种别:“Ballet”、“Zumba”和“Hip-Hop”。

对付性能评估,研究者利用各种指标与强基准进行比较,来剖析现实性、多样性、风格同等和节拍匹配。

除了原始姿势的表示,研究者还利用vid2vid模型对结果进行可视化,将合成的舞蹈转换为逼真的视频。

论文链接:

https://arxiv.org/pdf/1911.02001.pdf