行业内外感叹最多的地方,无外乎两点,一是天生效果自然逼真,还能同步天生与画面匹配的声音,很像当时 Sora 发布后引起的谈论和轰动;二是 Meta AI 的新模型自定义性很强,无论是视频画面比例,还是视频元素与细节,都能根据用户的需求进行调度。
以是,可能会引领视频天生新变革的 Meta Movie Gen 到底有哪些细节?这些在官网和演示视频里的惊艳效果是怎么炼成的?Meta AI 的视频模型卖力人 Andrew Brown 专门为 Meta Movie Gen 的理论技能做理解读:
Movie Gen 在整体质量和同等性方面显著优于 Sora。真实性和都雅性磨练照片写实性,Movie Gen 全面得胜。Meta Movie Gen 是一组可以进行文本到视频天生、文本到图像天生、个性化、编辑和视频到音频天生的模型。扩展数据、打算和模型参数非常主要,将其与流匹配相结合,并转向大略的常用 LLM 架构 (Llama),从而实现了 SOTA 视频天生质量。我们(Meta AI)是第一个利用 Llama arch 进行媒体天生的人。Movie Gen 是一个 30B 参数转换器,可天生不同宽高比和同步音频的 1080p 视频,最大持续韶光为 16 秒(16fps)。我们(Meta)为 T2V 模型供应了多阶段演习方案。T2I + T2V 联合演习,导致收敛速率慢得多且质量更差。文本到视频的评估很困难。自动化指标非常差,并且与人类评估没有很好的干系性。视频天生的「超级个体」Meta Movie Gen 首发当天,APPSO 在第一韶光宣布解读了这个最新的视频天生模型,总体来说,Movie Gen 具有四种功能:视频天生、个性化视频天生、精准编辑和音频天生。
先看最根本的视频天生 Movie Gen Video,多模态的能力使得新模型可以胜任多种不同的输入办法,用户不仅可以通过大略的文本、少许提示词天生相应的视频,还能直接把须要处理的图片放到模型里,根据笔墨哀求,让静态的图片变成动态的视频。
提示文本:一个女孩正在海滩上奔跑,手里拿着一只鹞子;她穿着牛仔短裤和一件黄色 T 恤;阳光照耀着她。
你乃至还能让 Movie Gen 帮忙重新天生或者优化一段视频。不管选择哪种输入办法,Movie Gen 目前在官网的演示视频,效果都非常好,人物表情自然,画面细节到位,也能比较准确地按照提示词或文本的哀求来天生相应结果。
Andrew Brown 先容到,在视频天生的过程中,扩展数据、打算和模型参数非常主要,将其与流匹配相结合,并转向大略的常用 LLM 架构 (Llama),从而实现了 SOTA 视频天生质量。
而且,新模型中的 T2V、个性化和编辑模型都来自相同的培训方案。在预演习期间,Meta 首先演习 T2I,然后演习 T2V。利用该模型作为初始化,然后进行 T2V 后期演习,并演习个性化 T2V 和 V2V 编辑的能力。
其余,模型的演习也按照分辨率的高低进行,先是低分辨率(256px)演习,然后是高分辨率演习(768px)。Meta AI 考试测验联合演习 T2I + T2V,但这导致收敛速率慢得多且质量比之前的还要差劲。
Movie Gen Video 之以是能够做到逼真的天生结果,实质上还是由于高达 30B 参数转换器模型的卓越能力,这个模型能够以每秒 16 帧的速率天生长达 16 秒的视频,而且最长能够天生 45 秒的高质量和高保真音频。
Meta 官方还在论文中透露:
这些模型可以推理物体运动、主体与物体之间的相互浸染和相机运动,并且可以学习各种观点的合理运动。
这句话一共有三层意思,首先是模型本身可以险些还原涌实际天下的物理运动,以及各种「合乎常理」的物理规律,而对付用户而言,看上去「自然且逼真」便是模型技能最成功的地方。
Movie Gen Video 能够准确理解物理天下的运动规律,Meta AI 是下了大功夫的。该团队在数亿个视频和数十亿张图像上,对全新的模型进行了大量的预演习。通过一直的重复、学习、总结、推理和利用,Movie Gen Video 才有了在官网里的精良表现。
接着,模型还能主动模拟学习专业电影的运镜、画面、蒙太奇等。也便是说,通过 Movie Gen Video 天生的视频,还有了类似电影拍摄的专业性和艺术性。
不过 Andrew Brown 提到,文本到视频的评估很困难。由于自动化指标非常差,并且与人类评估没有很好的干系性。也便是说,在视频天生模型研制的早期,天生结果和人们印象中和不雅观察中的真实物理天下差别太大,末了 Meta 还是决定这种真实性的判断,完备依赖人类的评估。
我们花费了大量精力将视频评估分解为多个正交质量和对齐轴。
结果 Movie Gen 在和 1000 个提示评估集上的模型进行比较时,在质量和同等性方面得胜或全面处于同等水平。
末了,模型能在此根本上,推理和创作出接下来的内容,它就像一个专业的导演,指挥着画面里的一举一动;也像一个履历丰富的拟声师,根据视频内容或者文本提示,实时天生和画面逐一对应的配乐。
烟花爆炸瞬间的音效
同步天生音频的能力,依赖得是 Movie Gen Audio。这是一个 13B 参数转换器模型,可以接管视频输入以及可选的文本提示,以实现可控性天生与视频同步的高保真音频。
和 Movie Gen Video 一样, Movie Gen Audio 也进行了「海量」练习,Meta AI 将数百万个小时的音频参考投喂到模型的演习里。经由大量的比拟总结,目前模型已经节制了声音和画面之间的对应关系,乃至还能理解不同的 bgm 会带给不雅观众哪些不同的感想熏染。
因此在碰着有关感情和环境的提示词时,Movie Gen Audio 总能找到和画面完美契合的音乐。
同时,它可以天生环境声音、乐器背景音乐和拟音声音,在音频质量、视频到音频对齐和文本到音频对齐方面供应最前辈的结果。
这使它们成为同类中最前辈的模型。
虽然我们不敢就此和官方一样,下一个如此自傲的定论,但无论是从官方的视频长度、画面质量,还是背景音乐的贴合程度,Movie Gen Video 相较于以往的视频天生模型,有了非常明显的进步。
而且,和先前的偶像实力派 Sora 比较,Movie Gen 在整体质量和同等性方面都有着比较明显的领先,Andrew Brown 绝不掩饰笼罩地说到在这场与 Sora 的比赛中:
Movie Gen 全面得胜。
视频编辑的「全能专家」在 Movie Gen Video 和 Movie Gen Audio 的协同合营下面,Meta AI 全新的视频天生模型有了全新的能力,不过上述的进步还只是技能根本,同时具备音视频天生能力后,Meta 还连续扩展了全新模型的适用范围,使它能够支持个性化视频的天生。
个性化顾名思义,便是结合用户需求,根据哀求天生指定的视频内容。
虽说先前的视频模型也能做到个性化天生结果,但这个结果总是不尽人意,要么是不能变动细节,只能重新来过,要么是在连续变动细节时,画面里的其他元素无法保持同等性,总是会由于新视频的天生而多少受到点影响。
Movie Gen Video 在官网的演示中,很好地展现了他们在这方面的上风。新模型不仅可以按照提示词/参考图像的哀求,天生个性化的视频,还能在该视频的根本上,连续优化调度细节,并且担保其他的天生内容不受滋扰,也便是「风雅化修正」。
与须要专业技能或缺少精确度的天生工具的传统工具不同,Movie Gen 保留了原始内容,仅针对干系像素。
在创建保留人类身份和动作的个性化视频方面,我们的模型取得了最前辈的成果。
这项功能,对付很多自媒体事情室,或有视频编辑需求的人,非常有用,它可以对变动工具进行全局修正,或者细节修正。大到根据文本重新天生全体画面,小到只改变人物的发色、眼镜的样式等。比如可以通过模型来肃清背景当中的无关杂物。
或者给原视频换上新的背景,不管是样式还是颜色,都能随时改变,而且还可以把白天秒变成黑夜。
其余 Movie Gen Video 还能针对很多细节做出细微的调度,在担保视频构图、画整体不变的同时,改变人物的衣服颜色、眼镜佩戴样式,主体穿着和宠物毛色等。
比如去除视频里的无关杂物、改换画面背景样式,增加视频细节,改变主体衣着颜色等方面,都是他的强项。
不过这还只是一种畅想,由于 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 帧的高清长视频,或者最长 45 秒的高质量和高保真音频。这样的画面分辨率以及视频长度,对付一个有创作需求的个体或公司来说,彷佛都不太够用。
但这种技能的打破,使得 AI 拥有了对视频文件无级调节的编辑能力,个性化定制、精准调节,加上 Movie Gen Audio 打开了视频配音的大门,Movie Gen Video 虽然要等到明年才会和公众年夜众正式见面,但以目前官方的演示结果来看,它真有可能为视频、影视和 AI 行业注入新的动力,乃至带来一场新的变革。
包括 Movie Gen Video 在内的最新、最前沿的工具,正在试图冲破这种 AI 在视频天生领域的刻板印象,虽然目前以他们的能力,这一天的到来还有良久。
对付视频天生模型来说,一开始很难直接影响,乃至触及到普通人的日常生活,直到有了某部由 AI 创作的电影,可能才会在新鲜感上,引起大众的把稳。当下用 AI 做出的电影、番剧、动漫,多少都有些画面不真实、动作很违和的缺陷。
Meta AI 也在官网表示,随着模型技能的改进与发展,他们将会与电影制作人和创作者密切互助,整合他们的反馈。当下,无论是 Runway、Sora,还是最新的 Meta AI,都在飞速发展,最少和一年前的天生效果比较起来,可以看到肉眼可见的进步。
AI 技能对人们生活的影响,不一定会在第一韶光显现出来,昔时夜家还都在磋商 AI「有什么用」的时候,那它对付大多数人的最大意义,便是多了一个好用的工具、一个好玩儿的玩具:
无论一个人是希望在好莱坞大展技艺的电影制作人,还是喜好为不雅观众制作视频的创作者,我们都相信每个人都该当有机会利用有助于提高创造力的工具。
#欢迎关注爱范儿官方微信"大众年夜众号:爱范儿(微旗子暗记:ifanr),更多精彩内容第一韶光为您奉上。
爱范儿|原文链接· ·新浪微博