行业内外感叹最多的地方,无外乎两点,一是天生效果自然逼真,还能同步天生与画面匹配的声音,很像当时 Sora 发布后引起的谈论和轰动;二是 Meta AI 的新模型自定义性很强,无论是视频画面比例,还是视频元素与细节,都能根据用户的需求进行调度。

以是,可能会引领视频天生新变革的 Meta Movie Gen 到底有哪些细节?这些在官网和演示视频里的惊艳效果是怎么炼成的?Meta AI 的视频模型卖力人 Andrew Brown 专门为 Meta Movie Gen 的理论技能做理解读:

Movie Gen 在整体质量和同等性方面显著优于 Sora。
真实性和都雅性磨练照片写实性,Movie Gen 全面得胜。
Meta Movie Gen 是一组可以进行文本到视频天生、文本到图像天生、个性化、编辑和视频到音频天生的模型。
扩展数据、打算和模型参数非常主要,将其与流匹配相结合,并转向大略的常用 LLM 架构 (Llama),从而实现了 SOTA 视频天生质量。
我们(Meta AI)是第一个利用 Llama arch 进行媒体天生的人。
Movie Gen 是一个 30B 参数转换器,可天生不同宽高比和同步音频的 1080p 视频,最大持续韶光为 16 秒(16fps)。
我们(Meta)为 T2V 模型供应了多阶段演习方案。
T2I + T2V 联合演习,导致收敛速率慢得多且质量更差。
文本到视频的评估很困难。
自动化指标非常差,并且与人类评估没有很好的干系性。

视频天生的「超级个体」

Meta Movie Gen 首发当天,APPSO 在第一韶光宣布解读了这个最新的视频天生模型,总体来说,Movie Gen 具有四种功能:视频天生、个性化视频天生、精准编辑和音频天生。

全方位超越 SoraMeta 最新的 AI 视频模型到底强在哪里

先看最根本的视频天生 Movie Gen Video,多模态的能力使得新模型可以胜任多种不同的输入办法,用户不仅可以通过大略的文本、少许提示词天生相应的视频,还能直接把须要处理的图片放到模型里,根据笔墨哀求,让静态的图片变成动态的视频。

提示文本:一个女孩正在海滩上奔跑,手里拿着一只鹞子;她穿着牛仔短裤和一件黄色 T 恤;阳光照耀着她。

你乃至还能让 Movie Gen 帮忙重新天生或者优化一段视频。
不管选择哪种输入办法,Movie Gen 目前在官网的演示视频,效果都非常好,人物表情自然,画面细节到位,也能比较准确地按照提示词或文本的哀求来天生相应结果。

Andrew Brown 先容到,在视频天生的过程中,扩展数据、打算和模型参数非常主要,将其与流匹配相结合,并转向大略的常用 LLM 架构 (Llama),从而实现了 SOTA 视频天生质量。

而且,新模型中的 T2V、个性化和编辑模型都来自相同的培训方案。
在预演习期间,Meta 首先演习 T2I,然后演习 T2V。
利用该模型作为初始化,然后进行 T2V 后期演习,并演习个性化 T2V 和 V2V 编辑的能力。

其余,模型的演习也按照分辨率的高低进行,先是低分辨率(256px)演习,然后是高分辨率演习(768px)。
Meta AI 考试测验联合演习 T2I + T2V,但这导致收敛速率慢得多且质量比之前的还要差劲。

Movie Gen Video 之以是能够做到逼真的天生结果,实质上还是由于高达 30B 参数转换器模型的卓越能力,这个模型能够以每秒 16 帧的速率天生长达 16 秒的视频,而且最长能够天生 45 秒的高质量和高保真音频。

Meta 官方还在论文中透露:

这些模型可以推理物体运动、主体与物体之间的相互浸染和相机运动,并且可以学习各种观点的合理运动。

这句话一共有三层意思,首先是模型本身可以险些还原涌实际天下的物理运动,以及各种「合乎常理」的物理规律,而对付用户而言,看上去「自然且逼真」便是模型技能最成功的地方。

Movie Gen Video 能够准确理解物理天下的运动规律,Meta AI 是下了大功夫的。
该团队在数亿个视频和数十亿张图像上,对全新的模型进行了大量的预演习。
通过一直的重复、学习、总结、推理和利用,Movie Gen Video 才有了在官网里的精良表现。

接着,模型还能主动模拟学习专业电影的运镜、画面、蒙太奇等。
也便是说,通过 Movie Gen Video 天生的视频,还有了类似电影拍摄的专业性和艺术性。

不过 Andrew Brown 提到,文本到视频的评估很困难。
由于自动化指标非常差,并且与人类评估没有很好的干系性。
也便是说,在视频天生模型研制的早期,天生结果和人们印象中和不雅观察中的真实物理天下差别太大,末了 Meta 还是决定这种真实性的判断,完备依赖人类的评估。

我们花费了大量精力将视频评估分解为多个正交质量和对齐轴。

结果 Movie Gen 在和 1000 个提示评估集上的模型进行比较时,在质量和同等性方面得胜或全面处于同等水平。

末了,模型能在此根本上,推理和创作出接下来的内容,它就像一个专业的导演,指挥着画面里的一举一动;也像一个履历丰富的拟声师,根据视频内容或者文本提示,实时天生和画面逐一对应的配乐。

烟花爆炸瞬间的音效

同步天生音频的能力,依赖得是 Movie Gen Audio。
这是一个 13B 参数转换器模型,可以接管视频输入以及可选的文本提示,以实现可控性天生与视频同步的高保真音频。

和 Movie Gen Video 一样, Movie Gen Audio 也进行了「海量」练习,Meta AI 将数百万个小时的音频参考投喂到模型的演习里。
经由大量的比拟总结,目前模型已经节制了声音和画面之间的对应关系,乃至还能理解不同的 bgm 会带给不雅观众哪些不同的感想熏染。

因此在碰着有关感情和环境的提示词时,Movie Gen Audio 总能找到和画面完美契合的音乐。

同时,它可以天生环境声音、乐器背景音乐和拟音声音,在音频质量、视频到音频对齐和文本到音频对齐方面供应最前辈的结果。

这使它们成为同类中最前辈的模型。

虽然我们不敢就此和官方一样,下一个如此自傲的定论,但无论是从官方的视频长度、画面质量,还是背景音乐的贴合程度,Movie Gen Video 相较于以往的视频天生模型,有了非常明显的进步。

而且,和先前的偶像实力派 Sora 比较,Movie Gen 在整体质量和同等性方面都有着比较明显的领先,Andrew Brown 绝不掩饰笼罩地说到在这场与 Sora 的比赛中:

Movie Gen 全面得胜。

视频编辑的「全能专家」

在 Movie Gen Video 和 Movie Gen Audio 的协同合营下面,Meta AI 全新的视频天生模型有了全新的能力,不过上述的进步还只是技能根本,同时具备音视频天生能力后,Meta 还连续扩展了全新模型的适用范围,使它能够支持个性化视频的天生。

个性化顾名思义,便是结合用户需求,根据哀求天生指定的视频内容。

虽说先前的视频模型也能做到个性化天生结果,但这个结果总是不尽人意,要么是不能变动细节,只能重新来过,要么是在连续变动细节时,画面里的其他元素无法保持同等性,总是会由于新视频的天生而多少受到点影响。

Movie Gen Video 在官网的演示中,很好地展现了他们在这方面的上风。
新模型不仅可以按照提示词/参考图像的哀求,天生个性化的视频,还能在该视频的根本上,连续优化调度细节,并且担保其他的天生内容不受滋扰,也便是「风雅化修正」。

与须要专业技能或缺少精确度的天生工具的传统工具不同,Movie Gen 保留了原始内容,仅针对干系像素。

在创建保留人类身份和动作的个性化视频方面,我们的模型取得了最前辈的成果。

这项功能,对付很多自媒体事情室,或有视频编辑需求的人,非常有用,它可以对变动工具进行全局修正,或者细节修正。
大到根据文本重新天生全体画面,小到只改变人物的发色、眼镜的样式等。
比如可以通过模型来肃清背景当中的无关杂物。

或者给原视频换上新的背景,不管是样式还是颜色,都能随时改变,而且还可以把白天秒变成黑夜。

其余 Movie Gen Video 还能针对很多细节做出细微的调度,在担保视频构图、画整体不变的同时,改变人物的衣服颜色、眼镜佩戴样式,主体穿着和宠物毛色等。

比如去除视频里的无关杂物、改换画面背景样式,增加视频细节,改变主体衣着颜色等方面,都是他的强项。

不过这还只是一种畅想,由于 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 帧的高清长视频,或者最长 45 秒的高质量和高保真音频。
这样的画面分辨率以及视频长度,对付一个有创作需求的个体或公司来说,彷佛都不太够用。

但这种技能的打破,使得 AI 拥有了对视频文件无级调节的编辑能力,个性化定制、精准调节,加上 Movie Gen Audio 打开了视频配音的大门,Movie Gen Video 虽然要等到明年才会和公众年夜众正式见面,但以目前官方的演示结果来看,它真有可能为视频、影视和 AI 行业注入新的动力,乃至带来一场新的变革。

包括 Movie Gen Video 在内的最新、最前沿的工具,正在试图冲破这种 AI 在视频天生领域的刻板印象,虽然目前以他们的能力,这一天的到来还有良久。

对付视频天生模型来说,一开始很难直接影响,乃至触及到普通人的日常生活,直到有了某部由 AI 创作的电影,可能才会在新鲜感上,引起大众的把稳。
当下用 AI 做出的电影、番剧、动漫,多少都有些画面不真实、动作很违和的缺陷。

Meta AI 也在官网表示,随着模型技能的改进与发展,他们将会与电影制作人和创作者密切互助,整合他们的反馈。
当下,无论是 Runway、Sora,还是最新的 Meta AI,都在飞速发展,最少和一年前的天生效果比较起来,可以看到肉眼可见的进步。

AI 技能对人们生活的影响,不一定会在第一韶光显现出来,昔时夜家还都在磋商 AI「有什么用」的时候,那它对付大多数人的最大意义,便是多了一个好用的工具、一个好玩儿的玩具:

无论一个人是希望在好莱坞大展技艺的电影制作人,还是喜好为不雅观众制作视频的创作者,我们都相信每个人都该当有机会利用有助于提高创造力的工具。

#欢迎关注爱范儿官方微信"大众年夜众号:爱范儿(微旗子暗记:ifanr),更多精彩内容第一韶光为您奉上。

爱范儿|原文链接· ·新浪微博