这是阿里云通义千问APP上线的免费功能,在通义千问APP内输入“通义舞王”、“全民舞王”等口令后,即可进入体验页面。用户按照提示哀求上传照片后,十几分钟即可天生神形兼备的舞蹈视频,天生的视频能较好地保留原形象的面部表情、身材比例、服装以及背景等特色。目前,通义千问首批为用户供应了科目三、蒙古舞、划桨步、鬼步舞等12种热门舞蹈模板。
据悉,该功能背后的算法为阿里通义实验室自研视频天生模型Animate Anyone。早在11月尾,该研究便在推特、Youtube等外洋社交媒体平台爆火,干系视频播放量超1亿,项目在Github上的Star短短数日就超过1万,是近期大模型领域最受欢迎的大模型算法之一。
除了天生效果之外,该算法的技能路线也被广泛关注。视频天生是大模型领域最热门的研究方向之一,但一贯以来,人物形象的视频天生面临诸多技能寻衅,例如人物形象同等、动作流畅可控、时序无瑕疵的人物动作视频。
根据公开论文显示,Animate Anyone集成了多项创新技能,引入了ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节;此外,该算法利用了高效的Pose Guider姿态勾引器 ,担保了动作的精准可控;其余,通过时序天生模块,有效担保视频帧间的连贯流畅性。在相同数据集的测试下,Animate Anyone的性能表现显著优于国内外同类模型。
今年9月,通义千问成海内首批通过备案的大模型,通义千问APP上线后功能持续升级,目前可供应文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频天生等几十项功能。
(大众新闻客户端 段婷婷 )