作者:蛋酱

沉睡了两千多年的兵马俑,清醒了?

一句秦腔开场,将我们带到了黄土高原。
如果不是亲眼所见,很多不雅观众可能弗成思议,有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。

「青海长云暗雪山,孤城遥望玉门关。
」古调虽存音乐变,声音依旧动人情:

央视点赞国产AI复生召唤术兵马俑竟与宝石老舅对唱Rap

这场演出背后的「AI 复活召唤术」,叫做 EMO,来自阿里巴巴通义实验室。
仅仅一张照片、一个音频,EMO 就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬抑扬。

在央视《2024 中国・AI 盛典》中,同样基于 EMO 技能,北宋文学家苏轼被「复活」,与李玉刚同台合唱了一曲《水调歌头》。
「AI 苏轼」动作古朴自然,仿佛穿越时空而来:

在 EMO 等 AI 领域前沿技能的引发下,首个以人工智能为核心的国家级科技盛宴《2024 中国・AI 盛典》盛大开幕,以「媒体 + 科技 + 艺术」的领悟形式将最前沿的国产 AI 技能力量通报给节目前的每一位不雅观众:

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924483&idx=1&sn=061c7fcc2953b642993acdf8e39d5d58&chksm=84e421bdb393a8abc4ccf08d0eb5071fd216831ed810cf9d8fac2584a64f326d92d4acaef3e0&token=1170670493&lang=zh_CN#rd

这不是 EMO 第一次「出圈」。
曾在社交媒体爆火的「高启强化身罗翔普法」,也是出自 EMO 之手:

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924483&idx=1&sn=061c7fcc2953b642993acdf8e39d5d58&chksm=84e421bdb393a8abc4ccf08d0eb5071fd216831ed810cf9d8fac2584a64f326d92d4acaef3e0&token=1170670493&lang=zh_CN#rd

上岸通义 APP 之后,借助玩家各种脑洞大开的试玩,EMO 火热程度至今不减。
还没有考试测验的小伙伴可以前去下载这款运用,进入「频道」选择「全民舞台」,就可以丝滑体验了。

实际上,早在今年 2 月,通义实验室就公开了 EMO(Emote Portrait Alive) 干系论文。
这篇论文上线之初就好评如潮,更是有人夸奖:「EMO 是一项革命性的研究。

论文地址:https://arxiv.org/pdf/2402.17485项目主页:https://humanaigc.github.io/emote-portrait-alive/

为什么它能得到如此高度的评价?这还要从当前视频天生技能的发展现状和 EMO 的底层技能创新提及。

如此出圈,EMO 凭什么?

过去几年,AI 在图像天生方面的成功是有目共睹的。
当前,AI 领域的研究热点是占领一个更困难的任务:视频天生。

EMO 面对的恰好是个中非常难的一项任务:基于音频驱动的人物视频天生。

不同于常见的文生视频和图生视频玩法,基于音频驱动的人物视频天生是一个从音频直接超过到视频模态的过程。
这类视频的天生每每涉及头部运动、瞩目、眨眼、唇部运动等多个要素,且要保持视频内容的同等性和流畅度。

在此前的方法中,模型大多先针对人脸、人头或者身体部分做 3D 建模或人脸关键点标记,以此作为中间表达再天生终极的视频。
但借助中间表达的方法可能会导致音频中的信息被过度压缩,影响最终生成视频中的感情表达效果。

通义实验室运用视觉团队卖力人薄列峰表示,EMO 的关键创新点「弱掌握设计」很好地办理了上述问题,不仅降落视频天生本钱,还大幅提升了视频天生质量。

「弱掌握」表示在两个方面:首先,EMO 无需建模,直接从音频中提取信息来天生表情动态和嘴唇同步的视频,从而在不须要繁芜预处理的情形下,端到端地创造出自然流畅且表情丰富的人像视频。
其次,EMO 对天生表情和身体动作不做过多「掌握」,最终生成结果的自然和流畅,都是源于模型本身对高质量数据的学习而演习出的泛化能力。

拿兵马俑和宝石 Gem 同框对唱《从军行》来说,歌声中所要传达的感情(如激扬)在其面部得到了很好的展现,不会给人违和感:

基于弱掌握的理念,研究团队为 EMO 模型构建了一个弘大而多样的音视频数据集,总计超过 250 小时的录影和超过 1.5 亿张图像,涵盖各种内容,包括演讲、电影和电视片段以及歌唱演出,包括中文和英文在内的多种措辞,视频的丰富多样性确保了演习材料捕捉了广泛的人类表达和声音风格。

学界有一种不雅观点是,对付一个数据集最好的无损压缩,便是对付数据集之外的数据最佳泛化。
能够实现高效压缩的算法每每能够揭示数据的深层规律,这也是智能的一个主要表现。

因此,团队在演习过程中设计了高保真数据编码算法,担保了在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。
详细到 EMO 的演习上,只有音频信息完全,人物感情才能很好的展现。

视频天生赛道风起云涌

通义实验室如何跻身环球第一梯队?

今年 2 月初,Sora 的发布点燃了视频天生赛道,背后的多项技能随之受到关注,个中就包括 DiT(Diffusion Transformer )。

我们知道,扩散模型中的 U-Net 能仿照旗子暗记从噪声中逐渐规复的过程,理论上能够逼近任意繁芜的数据分布,在图像质量方面优于天生对抗网络(GAN)和变分自编码器(VAE),天生具有更自然纹理和更准确细节的现实天下图像。
但 DiT 论文表明,U-Net 归纳偏置对扩散模型的性能并非不可或缺,可以很随意马虎地用标准设计(如 Transformer)取代,这便是该论文提出的基于 Transformer 架构的新型扩散模型 DiT。

最主要的是,以 DiT 为核心的 Sora 验证了视频天生模型中仍存在 Scaling Law ,研究者们可以通过增加更多的参数和数据来扩大模型规模实现更好的结果。

DiT 模型在天生真实视频方面的成功,让 AI 社区看到了这一方法的潜力,匆匆使视频天生领域从经典 U-Net 架构转变到基于 Transformer 的扩散主干架构的范式。
基于 Transformer 把稳力机制的时序预测、大规模的高质量视频数据都是推动这一转变的关键力量。

但纵不雅观当前的视频天生领域,尚未涌现一个「大一统」架构。

EMO 并不是建立在类似 DiT 架构的根本上,也便是没有用 Transformer 去替代传统 U-Net,同样能够很好地仿照真实物理天下,这给全体研究领域带来了启示。

未来,视频天生领域会涌现哪些技能路线?不管是理论研究者还是从业者,都可以保持「相对开放的期待」。

薄列峰表示,实质上,当前的措辞模型、图像 / 视频天生模型都没有超越统计机器学习的框架。
纵然是 Scaling Law ,也有自身的限定。
只管各个模型对强关系和中等关系的天生把握比较精准,但对弱关系的学习仍旧不敷。
如果研究者们不能持续供应足够多的高质量数据,模型的能力就难以有质的提升。

换个角度来看,纵然视频天生领域会涌现一种「霸占半壁江山」的大一统架构,也并不虞味其具备绝对的优胜性。
就像是自然措辞领域,一贯稳居 C 位的 Transformer 也会面临被 Mamba 超越的情形。

详细到视频天生领域,每种技能路线都有适宜自身的运用处景。
比如关键点驱动、视频驱动更适宜表情迁移的场景,音频驱动更适宜人物讲话、唱演的场景。
早年提掌握的程度来说,弱掌握的方法很适宜创意类任务,同时很多专业、详细的任务更能受益于强掌握的方法。

通义实验室是海内最早布局视频天生技能的机构之一,目前已有文生视频、图生视频等多个方向的研发积累,特殊是在人物视频天生方面,已经形成了包括人物动作视频天生框架 Animate Anyone、人物换装视频天生框架 Outfit Anyone、人物视频角色更换框架 Motionshop、人物唱演视频天生框架 Emote Portrait Alive 在内的完全研究矩阵。

更多项目请关注:https://github.com/HumanAIGC

比如在 EMO 之前,Animate Anyone 一度霸屏社交媒体和朋友圈。
该模型办理了人物运动视频天生中保持人物外不雅观短时连续性和永劫同等性的问题,随后上线通义 App「全民舞王」功能,掀起了一波全民热舞小高潮。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924483&idx=1&sn=061c7fcc2953b642993acdf8e39d5d58&chksm=84e421bdb393a8abc4ccf08d0eb5071fd216831ed810cf9d8fac2584a64f326d92d4acaef3e0&token=1170670493&lang=zh_CN#rd从技能到现实天下

过去两年,措辞模型展现了强大的对话、理解、总结、推理等文本方面的能力,图像天生模型展现了强大的自然天生、娱乐和艺术能力,两大赛道都出身了很多爆款产品。
这些模型的成功至少见告我们一点:想在这个时期取得影响力的技能团队,须要学会「根本模型」和「超级运用」两条腿走路。

目前,视频内容呈现爆发式增长的趋势,人们都在期待能够涌现一个人人「可用」且「实用」的 AI 视频天生平台。
EMO 可能是冲破这一局势的主要技能打破,通义 App 则供应了一个技能落地的广阔平台。

视频天生技能的下一个寻衅,是如何占领专业级的内容。

科技公司们希望将 AI 技能转化为真正的生产力工具,去做事短视频博主、影视制作人、广告和游戏创意人。
这也是为什么视频天生运用不能只勾留在「通用内容」的水准。

环顾目前大部分的视频天生运用,大多是基于 3 到 5 秒的视频天生模型,在运用和体验上的限定比较明显。
但 EMO 技能对付音频时长的原谅度很高,而且天生内容质量可以达到演播标准。
比如上岸央视的这段「兵马俑唱演」,全程四分钟的兵马俑部分演出视频无一秒须要人工后期针对性「微调」。

如今看来,以 EMO 为代表的人物视频天生技能是最靠近「专业级天生水准」的落地方向之一。
比较于文生视频技能中用户 Prompt 存在的诸多不愿定性,EMO 技能高度符合人物视频创为难刁难内容连贯性和同等性的核心需求,展示了极具潜力的运用空间。

EMO 之以是「出圈」,人们看到的不只是研发团队的技能实力,更主要的是看到了视频天生技能落地的加速度。

「人均专业创作者」的时期,或许不远了。