作者/ IT时报沈毅斌

编辑/ 郝俊慧 孙妍

巴黎奥运会风起云涌地进行着,视频天生大模型的赛场同样热闹,海内多位“参赛选手”纷纭亮相,只为争夺名为“中国版Sora”的金牌。

在刚刚过去的七月,生数科技打造的视比年夜模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频天生大模型“清影”;商汤发布首个面向C端用户的可控人物视频天生大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源名为LivePortrait的可控人像视频天生框架……

国产视频生成大年夜模型大年夜爆发三分钟AI短剧批量上线

AI视比年夜模型令人惊叹的“增速”,不仅在成本市场炙手可热,更带给影视行业不小的冲击,尤其是当抖音、快手以及央视推出AI制作的短剧后,演员和编剧也开始面临“失落业危急”。

不过,科技产品从实验室走向市场,能力至关主要。
AI视比年夜模型能否高质量实现天生内容的连贯性和同等性,才是决定其未来发展的关键。

摸着Sora过河

只管Sora还没有向"大众年夜众开放,但提及文生视频,Sora是一个绕不开的话题。

“目前,国产视频天生大模型的技能路径与Sora基本同等,只不过每家都会加入自己的Trick(技巧)。
”Logenic AI联合创始人李博杰见告《IT时报》,视频的实质可以算作是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技能是扩散模型,它可以根据输入的笔墨描述,获取数据的内在构造和分布规律,从而天生单张图片。

但扩散模型在语义、数据之间的联系存在局限,就须要Transformer模型将不同数据进行相互干联,遐想天生大量图片,表达帧与帧之间的关系,终极通过编码器压缩成一条视频。

李博杰表示,目前视频天生大模型的算力可以达到ChatGPT3.5的水平,但还不及ChatGPT4的万卡集群规模,海内许多企业都具备这样的算力。
因此在有限的算力下,决定视频质量的关键取决于数据的质量和数量,画面的连贯性也可以通过大量数据演习而实现。

不过,由于关键数据获取难、原始天下数据被越来越多的AI天生内容所“污染”,加上视频数据大多缺少对应描述性文本或者描述质量低下,国产视频天生大模型开始从模型构造、组件等方面寻求技能打破来担保连贯性。

以智谱清影为例,智谱清影干系卖力人周文(化名)见告《IT时报》,为理解决内容连贯性的问题,智谱自研的三维变分自编码器构造(3D VAE)将原视频空间压缩至2%,减少了视频扩散天生模型的演习本钱及演习难度。

模型构造方面,将因果三维卷积(Causal 3D convolution)作为紧张模型组件,移除自编码器中常用的把稳力模块,使得模型具备不同分辨率迁移利用的能力。
同时,在韶光维度上,因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性,便于通过微调的办法向更高帧率与更永劫光泛化。

与传统路径不同的是,智谱清影摒弃了交叉把稳力机制(Cross Attention)模块,采取将文本、韶光、空间三个维度全部领悟起来的Transformer架构,在输入阶段就将文本和视频向量化(Embedding),然后再将不同模态的向量直接连接(Concatenate)起来,形成单一的特色向量,输入到下贱任务中。

不过,这两种不同构造的数据特色空间有较大差异,此时就须要通过专家自适应层归一化技能(Expert Adaptive Layernorm)对文本和视频两个模态分别进行处理,利用扩散模型中的韶光步信息,实现视觉信息与语义信息的对齐。

一个人拍一部剧成为可能

视频天生大模型的批量上线,最有可能被影响的是影视行业。

“不可否认,视频天生大模型让我们看到了影视发展的新可能。
”上海大学温哥华电影学院副院长陈晓达见告《IT时报》,AI天生不仅可以降落影片制作、场景搭建、妆造设计等本钱和韶光,也降落了入局门槛,一个人就有可能拍摄完一部剧。

6月28日,中心广播电视影视剧记录片中央制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。
此后,博纳影业与抖音互助推出AI科幻短剧《三星堆:未来启迪录》,快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。
截至8月8日,抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。

从这些AI短剧中可以看到,人物角色的面部特色从始至终保持同等。
常日而言,纯挚利用笔墨描述天生视频时,每次的结果都会有一定差异,那么,这些短剧的同等性是如何实现的呢?

李博杰剖析,个中可能用到了文生视频的核心模型——ControlNet。
ControlNet是一种“赞助式”的神经网络模型构造,通过在Stable Diffusion模型中添加赞助模块,形成一个“锁定”副本和可演习副本。
大略来说,通过ControlNet完成人物形象建模后“锁定”,再通过可演习副本进行后期视频场景、动作等变换。

也正是由于“锁定”,视频人物难以实现大幅度动作,陈晓达经由实测后见告,每天生一帧画面都是一次“开盲盒”的过程,无法确保天生内容符合标准,因此只能花费大量韶光不断天生,从中挑选出可用画面拼凑成一部短剧,“你会创造宣扬的都是3分钟以内的短剧,想要靠AI天生拼凑出一部完全的长视频作品,目前还做不到。

《山海奇镜之劈波斩浪》导演陈坤同样认为,在人物同等性、场景同等性、人物演出、动作交互等AI技能还没有高度可控和精确化的条件下,AI影视作品并不适宜呈现特殊繁芜的故事,随意马虎让不雅观众出戏。

智谱AI CEO张鹏在接管媒体采访时也表示,现在视频天生大模型的商业化仍处于非常早期的阶段,天生效果对物理天下规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。

“三无”AI电影威胁好莱坞

市场是有“嗅觉”的,虽然目前天生效果并不完美,但视频天生大模型赛道的火热程度不言而喻。
启明创投主管合资人周志峰在2024天下人工智能大会上预测,3年内AI视频天生技能将全面爆发。
头豹研究院数据显示,估量到2026年,中国AI视频天生行业的市场规模将达到92.79亿元。

详细来看,快手可灵发布三个多月后,申请体验用户数量已打破 70 万,乃至涌现排队期待申请的情形,累计天生的视频作品达 700 万份;爱诗科技打造的PixVerse大模型在海内上线88天后,达到一千万次视频天生量。
这也成为央视动手制作AI短剧的缘故原由之一。

当无演员演绎、无场景搭建、无绿幕殊效的“三无”AI影视作品走向市场时,演员和编剧的“危急”也悄然来临。
博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示,将为AI短剧塑造的角色打造热门个人IP。

面对AI“威胁”情形,从去年夏天开始,美国编剧工会和演员工会联手发起大罢工,让好莱坞陷入长达数月的停摆,导致影视作品数量大幅减少。
据外媒宣布,这一情形在今年依然没有涌现好转,部分演员还被哀求在与华纳公司的条约中赞许利用“数字合成形象”,若谢绝则可能失落去事情机会。

从国产视频天生大模型的现有能力来看,制作动态海报、广告短片、殊效动画等已经不在话下,且运用处景还在扩展。
陈晓达认为,技能本身固然主要,但首先要让利用者节制标准化的工业流程,新技能才得以长效落地,“AI技能短韶光内没法取代演员和编剧的地位,但会利用AI技能的人很快就能取代他们”。

对此,上海大学温哥华电影学院在去年2月开始开设AI电影课程,一方面让学生学会利用AI来提升影视制作效率和节省本钱;另一方面也是为了顺应时期浪潮,不被“取代”。

排版/ 季嘉颖

图片/ 清影AI 抖音 快手 可灵AI 东方IC

来源/《IT时报》"大众年夜众号vittimes

E N D