机器之心编辑部
近期,来自字节跳动的视频天生模型 Loopy,一经发布就在 X 上引起了广泛的谈论。Loopy 可以仅仅通过一张图片和一段音频天生逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能天生的非常自然,让网友直呼哈利波特的邪术也不过如此。
Loopy 模型采取了 Diffusion 视频天生框架。输入一张图片和一段音频,就可以天生相应的视频。不但可以实现准确的音频和口型同步,还可以天生细微自然的表情动作,例如人物跟随感情节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非措辞类动作也能很好地被捕捉到;在唱歌时也能表现得活灵巧现,驾驭不同风格。
视频加载中...
柔和
高昂
rap
视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A
更多丰富风格的展示,可移步项目主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的图片风格上,Loopy 也都表现得不错,像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情形等等。
视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A
Loopy 技能方案
详细来说,Loopy 是如何仅需音频,就能实现这样生动的效果呢?
Loopy 框架等分别对外不雅观信息(对应图中左上角)和音频信息(图中左下角)做了相应的方法设计,在外不雅观上团队引入了 inter/intra- clip temporal layers 模块,通过 inter-clip temporal layer 来捕捉跨韶光片段的时序信息,通过 intra-clip temporal layer 来捕捉单个片段内的时序信息,通过分而治之的办法更好建模人物的运动信息。
同时为了进一步的提升效果,团队设计了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉长达 100 帧以上的时序信息,从而可以更好的基于数据学习永劫运动信息依赖,抛弃了空间模版的限定,最终生成更好的人像运动。这就不难明得为什么 Loopy 可以仅仅依赖音频,不须要任何空间赞助旗子暗记就可以天生自然逼真的人像视频了。
除此以外,为了能够捕捉到细腻的表情变革,团队设计了一个名为 audio to latents(A2L)的模块,用来增强音频和头部运动之间的关联关系。这个 A2L 模块在演习过程中会随机选取音频、表情参数、运动参数中的一个,将其转化为 motion latents,作为 diffusion model 的运动掌握旗子暗记。在测试的时候,只须要音频就能够得到 motion latents。通过这种办法,可以借助与肖像运动强干系的条件(表情参数、运动参数)来帮助较弱干系的条件(audio)天生更好的 motion latents,进而实现对细微生动的肖像运动及表情的天生。
Loopy 在不同场景下都和近期的方法做了数值比拟,也表示了相称的上风:
CyberHost 半身人像版模型,手部动作也能驱动
除此以外,该团队近期还推出了一个名为 CyberHost 的半身人像版本。这款模型是首个采取端到端算法框架进行纯音频驱动的半身视频天生系统,将驱动范围从肖像扩大到了半身,不仅表情自然、口型准确,也能天生和音频同步的手部动作,这在该领域是一个重大打破。
手部动作天生一贯是视频天生技能中的难题,鲜有模型能实现稳定的效果。特殊是在纯音频驱动的场景下,由于缺少骨架信息输入,保持手部动作的稳定性更具寻衅。CyberHost 通过专门设计的 Codebook Attention 来强化对人脸和手部等关键区域的构造先验学习,在纯音频驱动下的手部天生质量乃至超越了许多基于视频驱动的方法。
视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A
视频链接:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A
Codebook Attention 引入了一系列可学习的时空联合隐变量参数,专注于在演习过程中学习数据集中局部区域的构造特色和运动模式。同时,该机制还提取了关键区域的外不雅观特色,强化了局部 ID 的同等性。团队将这一机制运用于脸部和手部区域,并在 Denoising U-Net 的各个阶段进行插入,提升了对关键区域的建模能力。
此外,CyberHost 还设计了一系列基于人体构造先验的演习策略,旨在减少音频驱动下人体动作天生的不愿定性。这些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限定视频天生中人体的运动范围。而 Hand Clarity Score 通过打算局部像素的 laplacian 算子来掌握天生手部的清晰度,规避手部运动模糊带来的效果劣化。
更多细节见论文以及项目主页:
CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876
团队先容
字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技能团队,覆盖了打算机视觉、音视频编辑、殊效处理等技能领域,借助公司丰富的业务场景、根本举动步伐资源和技能协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务供应业界前沿的内容理解、内容创作、互动体验与消费的能力和行业办理方案。个中数字人方向专注于培植行业领先的数字人天生和驱动技能,丰富智能创作内容生态。
目前,智能创作团队已通过字节跳动旗下的云做事平台火山引擎向企业开放技能能力和做事。更多大模型算法干系岗位开放中。