编辑 | 郑玄

6 月,又是 AI 视频天生的一个主要月份,Runway 3、Luma AI、快手可灵纷纭推出了普通用户可用的视频天生模型
用 AI 天生视频,间隔我们越来越近。

不过,相对付对话式机器人、AI 图片天生这些成熟的大模型利用场景,「AI 视频」离走出尝鲜还有一定间隔。
比如,无论是在影视剧里,还是在短视频中,视频的最主要的场景之一便是人脸,而在网上的视频天生测试中,最随意马虎翻车之一的场景,也正是人脸。

下面是笔者用 Luma AI 考试测验通过一张科学家图灵的照片天生的视频,让人物本身动起来相对随意马虎,但一旦动起来,图灵的脸很快就变成了另一个人。

AI 生成人物视频翻车商汤推出可控人物视频生成模型 Vimi

图片来源:Luma AI 天生

在大模型和智能视觉技能领域有深厚积累的商汤,希望办理视频天生中这种「不可控」的痛点。
最近在上海的 WAIC 2024 上,推出了最新的人物 AI 视频模型 Vimi,主打技能的「可控性」。

同一张照片,在商汤的演示下,天生是这样的。

视频来源:商汤 Vimi 模型

不仅光影和谐,且人物的同等性保持度极高。

商汤是怎么做到的?

第一个人物「可控」的视频天生模型

据极客公园理解,这次的可控人物 AI 视频模型 Vimi 模型,由商汤数字文娱团队出品。

商汤从 2016 年开始,就持续深耕在人物表情的 AI 处理上,是亚洲地区最大的殊效引擎供应商。
作为用户,我们可能提起小狗滤镜,变脸殊效,只能想起抖音这样的 C 端软件,不过实在背后,许多这样的殊效的供应,都来自于商汤数字文娱团队。

去年,早在 Sora 的 demo 发布之前,他们就开始立项,进行可控人物 AI 视频模型的研发。
重点发力「人物」、「可控」两个难点。

在视频天生中,可控性实在一贯是不少模型努力的方向。

在 Vimi 模型之前,实在市情上已经有一些模型,能够较为可控地天生人物动作。

个中最出圈的,可能便是阿里出品的 AnimateAnyone,也便是曾经让兵马俑也能跳「科目三」的背后技能。
采取了姿态勾引器(Pose Guider)的技能,通过 Denoising UNet 模块进行视频的天生,AnimateAnyone 能够让人们在只输入一张图片的情形下,让图片做出姿态勾引器所做出的动作。

大略讲,科目三的动作是被提前设置好的,而输入照片后,AnimateAnyone 可以让一张照片中的人物按照科目三的动作动起来。

AnimateAnyone 天生

不过很明显可以看出,AnimateAnyone 的姿态掌握,更针对大范围的肢体动作。

而商汤团队的上风,在于塑造人物表情上更加鲜活。

同样是同时输入一张图片,和一个动作(可以是动画模型的 3D 骨架动作,也可以是一段视频),商汤的 Vimi 模型,能够做到对脸部和上半身动作进行精准地掌握。
这也是目前发布的第一个能够对人脸和上半身做如此精准可控的模型。

视频来源:商汤 Vimi 模型

商汤表示,模型演习本身,并没有利用特殊的数据,只是采取了公开数据库进行演习。

而能够在人脸方面,成为第一个精准掌握人脸表情的模型,紧张源于商汤多年在面部跟踪方面的积累:「对人脸实现技能角度的精准掌握,须要更精准地去跟踪人物表情中的每一个细节,包括牙齿、耳朵、眼球、睫毛等等。
细节能够做的好,在人物的参数化上就可以做得非常的精准,之前的技能积累都是实现这个模型的条件。
有了这些积累,真正演习的时候,利用的数据量可以少许多。

事实上,除了专注于面部的可控之外,商汤的 Vimi 模型和 AnimateAnyone 在底层架构上也不同。
AnimateAnyone 利用类似 ControlNet 的方法,从图像中的身体部位提取一些锚点,作为天生视频每一帧的动作参考;而商汤的 Vimi 模型,将人的动作和表情做了全面的理解和抽象,将整段动作信息作为一个整体,与天生模型对图像和视频信息的特色理解相领悟,这样天生的视频在空间和韶光上都能保持很好的整体性。

不同的演习架构,导致从天生效果来看,商汤的模型,对光影同等性的掌握,效果非常精良。
「传统模型最大的一个问题是,它不太能合理地天生周边的内容,包括身体的动作和环境的一些变革。
而采取大模型演习,可以全体的环境都随着肢体的掌握去变革,包括天生合理的头发的抖动。
乃至能够仿照镜头角度,比如输入镜头是逐渐拉近,输出也能有自然的逐渐拉近的效果。
而原来,要做出这样的效果,须要繁芜的 3D 建模,绑定各种光效渲染才能做出来。
」采访中商汤表示。

视频来源:商汤 Vimi 模型

而与专门的天生式模型比起来,可控人物 AI 视频模型又在人物天生效果稳定多了。
尤其在长视频的情景下,能够稳定保持人物的脸部可控。
目前,团队可以做到一分钟以上的稳定视频天生。

Vimi 模型利用情深深雨濛濛视频片段作为掌握天生的长视频

可控,才可用

人脸天生,是 AI 天生视频中最难的场景之一。

缘故原由,首先是由于人类对人脸本身就很敏感。
一个细微的肌肉表情,就能被解读出不同的含义。
人们自拍常常要拍几十张相似的照片,才能挑到得当的角度。
因此涉及到人脸的一些形变,很随意马虎就会引起我们的把稳。

而其次,人脸天生本身,存在一定技能难度。
人的身体,并不是一个刚性的物体——刚性物体,只要对其进行环抱拍摄,模型就能很随意马虎学习其物理属性。
而人体本身,有许多枢纽关头,人身体上会穿优柔的衣服,人脸周围有毛发,对付模型来说,学习难度就会更高。

然而对付创作者来说,人脸视频天生却是最不可或缺的一块。

无论是影视作品,还是短视频作品,用人脸去传达感情,都是主要环节,无法被替代。

而商汤布局于这块硬骨头,也正是源于商汤多年在 B 端积累的客户洞察。

商汤科技数字文娱奇迹部总经理栾青在接管采访时表示:「我们和许多做动画电影的人聊了之后,创造他们普遍想要讲好一个故事。
而现在的大模型,无法进入生产流程的最大问题,便是没有一个很可控的方法,让他们电影中的人物,真的具有表现力。
末了 AI 视频还是只能用在过场的大场景中。

而布局可控模型,也与商汤对付本日的大模型发展意见一脉相承。

在刚刚结束的 WAIC 上,商汤科技董事长兼 CEO 徐立提到,大模型技能走向运用,在商汤的认知中,有几个核心的主要的打破点。
其一是人工智能的推理问题,要用高阶逻辑知识学习来办理。
二,则是实时交互性带来流畅体验,在 WAIC 上,商汤发布也发布了商汤的阶段性成果「日日新 5o」模型。

而末了,很主要的一点,便是可控性。
不管是文本天生、图像天生、视频天生,如果没有具备可控性,AI 作为一个工具,本身能够带来的效能的提升就非常的有限。

而 Vimi 模型,便是商汤在可控性方面,针对用户需求,做出的人物视频天生大模型。

今日的创作者,无需再在 prompt 上苦下功夫,一遍各处天生,寄希望于大模型的盲盒,能够终于天生一个可用的人脸视频,既花功夫,又花本钱。

对付原来的影视、动画创作者来说,Vimi 模型现在可以直策应用动画创作者最熟习的骨架天生动作。
而对付更多只有想法的视频创作者,自己录制一段视频,也能直接实现很好的天生效果。

视频来源:商汤 Vimi 模型

Vimi 模型仍旧在快速持续迭代升级中。
目前的模型,能够更可靠的天生的,紧张是人物的上半身视频,而进一步的迭代的方向包括脸部表情的进一步掌握、身体姿态掌握、手部掌握等等。

再进一步,Vimi 希望能够掌握身体更多更繁芜的动作,对更大的场景和多人的情景也能进行掌握等等。

可控,才可用。

站在本日的韶光点,我们也在 Vimi 模型身上,洞见了未来的可能性。

例如,曾经爆火的 AI 写真天生运用,利用的是成熟的 AI 生图技能,那么,在人脸天生稳定的新技能后,我们是不是可以期待一波 AI 视频写真的爆火?

视频来源:商汤 Vimi 模型

再比如,借助可控人物 AI 视频模型,原来不熟习视频创作的人,是不是未来也可以低本钱,低门槛地天生视频,来讲出自己想讲的故事,极大地丰富未来的视频内容?

抑或者,在不远的未来,我们再也不用担心明星没有演技了。
由于明星的演技,也可以利用大模型微调了。

头图来源:Vimi

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO