机器之心编辑部

日前,旷视科技发布了一项新的开源 AI 人像视频天生框架 ——MegActor
基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可天生一段表情丰富、动作同等的 AI 人像视频。
MegActor 所天生的视频长度,取决于给定的驱动视频的长度。
与阿里 EMO、微软 VASA 等最新呈现的 AI 视频模型不同,旷视 MegActor 将采取开源的办法,供应给开拓者社区利用。
MegActor 能够呈现出丝毫毕现的效果,面部细节更加丰富自然,画质更出色。

视频加载中...

为了进一步展示其泛化性,MegActor 乃至可以让 VASA 里面的人物肖像和它们的视频彼此组合天生,得到表情生动的视频天生结果。

旷视开源的AI人像视频生成太炸了输入照片即可模仿随便率性神色包

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923565&idx=2&sn=e52894d202ab6b19524044a0c73fc6f7&chksm=84e42653b393af455ebee3f2596d218af2d781bd267d6e45224a7853cff8333eca4229c9fa8a&token=924877127&lang=zh_CN#rd

纵然是比拟阿里 EMO 的官方 Case,MegActor 也能天生近似的结果。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650923565&idx=2&sn=e52894d202ab6b19524044a0c73fc6f7&chksm=84e42653b393af455ebee3f2596d218af2d781bd267d6e45224a7853cff8333eca4229c9fa8a&token=924877127&lang=zh_CN#rd

总的来说,不管是让肖像开口说话,让肖像进行唱歌 Rap,还是让肖像模拟各种搞怪的表情包,MegActor 都可以得到非常逼真的天生效果。

论文:https://arxiv.org/abs/2405.20851代码地址:https://github.com/megvii-research/megactor项目地址:https://megactor.github.io/

MegActor 是旷视研究院的最新研究成果。
旷视研究院,是旷视打造的公司级研究机构。
旷视研究院旨在通过根本创新打破 AI 技能边界,以工程创新实现技能到产品的快速转化。
经由多年景长,旷视研究院已成为环球规模领先的人工智能研究院。

在目前的人像视频天生领域,许多事情常日利用高质量的闭源自采数据进行演习,以追求更好的效果。
而旷视研究院始终坚持全面开源,确保实际效果的可复现性。
MegActor 的演习数据全部来自公开可获取的开源数据集,合营开源代码,使得感兴趣的从业者可以从头开始完全复现这些令人惊艳的效果。

为了完备复刻原始视频的表情和动作,MegActor 采取了原始图像进行驱动,这与多数厂商利用 sketch、pose、landmark 的中间表示皆然不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在 AI 视频天生领域,我们创造目前主流的骨骼关键点掌握办法不仅哀求用户供应难以获取的专业掌握旗子暗记,同时天生视频相较于原肖像的保真程度也不尽如人意。
通过一系列研究创造,利用原视频进行驱动,不仅将帮助用户降落掌握旗子暗记的门槛,更能天生更加保真且动作同等的视频。

详细来说,MegActor 紧张由两个阶段构成:

利用了一个 ReferenceNet 对参考图像进行特色提取,卖力得到参考图像的外不雅观和背景等信息;利用了一个 PoseGuider,对输入的视频进走运动和表情信息提取,卖力将运动和表情信息迁移到参考图像上。

只管相较于利用音频或 landmark 等表示办法,利用原始视频进行驱动能带来更加丰富的表情细节和运动信息。
然而,利用原始视频进行驱动依然存在两大核心技能寻衅:一是 ID 透露问题;二是原始视频中的背景和人物皱纹等无关信息会滋扰影响合成表现。

为此,MegActor 首创性地采取了条件扩散模型。
首先,它引入了一个合成数据天生框架,用于创建具有同等动作和表情但不一致身份 ID 的视频,以减轻身份透露的问题。
其次,MegActor 分割了参考图像的前景和背景,并利用 CLIP 对背景细节进行编码。
这些编码的信息随后通过文本嵌入模块集成到网络中,从而确保了背景的稳定性。

在数据演习方面,旷视研究院团队仅利用公开的数据集进行演习,处理了 VFHQ 和 CeleV 数据集进行演习,总时长超过 700 小时。
同时,为了避免 ID 透露问题,MegActor 还利用换脸和风格化方法 1:1 天生合成数据,实现表情和动作同等、但 ID 不一致的数据。
此外,为了提高对大范围动作和夸年夜表情的模拟能力,团队利用注目检测模型对数据进行处理,获取大约 5% 的高质量数据进行 Finetune 演习。

通过采取一系列新的模型框架和演习方法,旷视研究院团队仅利用了不到 200 块 V100 显卡小时的演习时长,终极实现的详细特性包括:

可以根据输入的视频天生任意持续韶光的模拟视频,同时担保角色身份的同等性支持各种驱动视频,如演讲、唱歌、表情包等支持不同的画风(照片、传统绘画、漫画、AI 数字人等)

与音频天生的方法比较,MegActor 天生的视频,不仅能确保表情和动作同等,更能达到同样的自然程度。

目前,MegActor 已经完备开源,供广大开拓者和用户即开即用。