国产视频生成大年夜模型大年夜爆发三分钟AI短剧批量上线

作者／ IT时报沈毅斌

编辑／郝俊慧孙妍

巴黎奥运会风起云涌地进行着，视频天生大模型的赛场同样热闹，海内多位“参赛选手”纷纭亮相，只为争夺名为“中国版Sora”的金牌。

在刚刚过去的七月，生数科技打造的视比年夜模型Vidu上线，面向用户开放文生视频和图生视频两大功能；智谱AI正式发布视频天生大模型“清影”；商汤发布首个面向C端用户的可控人物视频天生大模型Vimi；阿里达摩院推出一站式AI视频创作平台“寻光”；快手可灵AI正式上线网页端，并开源名为LivePortrait的可控人像视频天生框架……

国产视频生成大年夜模型大年夜爆发三分钟AI短剧批量上线

AI视比年夜模型令人惊叹的“增速”，不仅在成本市场炙手可热，更带给影视行业不小的冲击，尤其是当抖音、快手以及央视推出AI制作的短剧后，演员和编剧也开始面临“失落业危急”。

不过，科技产品从实验室走向市场，能力至关主要。
AI视比年夜模型能否高质量实现天生内容的连贯性和同等性，才是决定其未来发展的关键。

摸着Sora过河

只管Sora还没有向"大众年夜众开放，但提及文生视频，Sora是一个绕不开的话题。

“目前，国产视频天生大模型的技能路径与Sora基本同等，只不过每家都会加入自己的Trick（技巧）。
”Logenic AI联合创始人李博杰见告《IT时报》，视频的实质可以算作是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技能是扩散模型，它可以根据输入的笔墨描述，获取数据的内在构造和分布规律，从而天生单张图片。

但扩散模型在语义、数据之间的联系存在局限，就须要Transformer模型将不同数据进行相互干联，遐想天生大量图片，表达帧与帧之间的关系，终极通过编码器压缩成一条视频。

李博杰表示，目前视频天生大模型的算力可以达到ChatGPT3.5的水平，但还不及ChatGPT4的万卡集群规模，海内许多企业都具备这样的算力。
因此在有限的算力下，决定视频质量的关键取决于数据的质量和数量，画面的连贯性也可以通过大量数据演习而实现。

不过，由于关键数据获取难、原始天下数据被越来越多的AI天生内容所“污染”，加上视频数据大多缺少对应描述性文本或者描述质量低下，国产视频天生大模型开始从模型构造、组件等方面寻求技能打破来担保连贯性。

以智谱清影为例，智谱清影干系卖力人周文（化名）见告《IT时报》，为理解决内容连贯性的问题，智谱自研的三维变分自编码器构造（3D VAE）将原视频空间压缩至2%，减少了视频扩散天生模型的演习本钱及演习难度。

模型构造方面，将因果三维卷积（Causal 3D convolution）作为紧张模型组件，移除自编码器中常用的把稳力模块，使得模型具备不同分辨率迁移利用的能力。
同时，在韶光维度上，因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性，便于通过微调的办法向更高帧率与更永劫光泛化。

与传统路径不同的是，智谱清影摒弃了交叉把稳力机制（Cross Attention）模块，采取将文本、韶光、空间三个维度全部领悟起来的Transformer架构，在输入阶段就将文本和视频向量化（Embedding），然后再将不同模态的向量直接连接（Concatenate）起来，形成单一的特色向量，输入到下贱任务中。

不过，这两种不同构造的数据特色空间有较大差异，此时就须要通过专家自适应层归一化技能（Expert Adaptive Layernorm）对文本和视频两个模态分别进行处理，利用扩散模型中的韶光步信息，实现视觉信息与语义信息的对齐。

一个人拍一部剧成为可能

视频天生大模型的批量上线，最有可能被影响的是影视行业。

“不可否认，视频天生大模型让我们看到了影视发展的新可能。
”上海大学温哥华电影学院副院长陈晓达见告《IT时报》，AI天生不仅可以降落影片制作、场景搭建、妆造设计等本钱和韶光，也降落了入局门槛，一个人就有可能拍摄完一部剧。

6月28日，中心广播电视影视剧记录片中央制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。
此后，博纳影业与抖音互助推出AI科幻短剧《三星堆：未来启迪录》，快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。
截至8月8日，抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。

从这些AI短剧中可以看到，人物角色的面部特色从始至终保持同等。
常日而言，纯挚利用笔墨描述天生视频时，每次的结果都会有一定差异，那么，这些短剧的同等性是如何实现的呢？

李博杰剖析，个中可能用到了文生视频的核心模型——ControlNet。
ControlNet是一种“赞助式”的神经网络模型构造，通过在Stable Diffusion模型中添加赞助模块，形成一个“锁定”副本和可演习副本。
大略来说，通过ControlNet完成人物形象建模后“锁定”，再通过可演习副本进行后期视频场景、动作等变换。

也正是由于“锁定”，视频人物难以实现大幅度动作，陈晓达经由实测后见告，每天生一帧画面都是一次“开盲盒”的过程，无法确保天生内容符合标准，因此只能花费大量韶光不断天生，从中挑选出可用画面拼凑成一部短剧，“你会创造宣扬的都是3分钟以内的短剧，想要靠AI天生拼凑出一部完全的长视频作品，目前还做不到。
”

《山海奇镜之劈波斩浪》导演陈坤同样认为，在人物同等性、场景同等性、人物演出、动作交互等AI技能还没有高度可控和精确化的条件下，AI影视作品并不适宜呈现特殊繁芜的故事，随意马虎让不雅观众出戏。

智谱AI CEO张鹏在接管媒体采访时也表示，现在视频天生大模型的商业化仍处于非常早期的阶段，天生效果对物理天下规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。

“三无”AI电影威胁好莱坞

市场是有“嗅觉”的，虽然目前天生效果并不完美，但视频天生大模型赛道的火热程度不言而喻。
启明创投主管合资人周志峰在2024天下人工智能大会上预测，3年内AI视频天生技能将全面爆发。
头豹研究院数据显示，估量到2026年，中国AI视频天生行业的市场规模将达到92.79亿元。

详细来看，快手可灵发布三个多月后，申请体验用户数量已打破 70 万，乃至涌现排队期待申请的情形，累计天生的视频作品达 700 万份；爱诗科技打造的PixVerse大模型在海内上线88天后，达到一千万次视频天生量。
这也成为央视动手制作AI短剧的缘故原由之一。

当无演员演绎、无场景搭建、无绿幕殊效的“三无”AI影视作品走向市场时，演员和编剧的“危急”也悄然来临。
博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示，将为AI短剧塑造的角色打造热门个人IP。

面对AI“威胁”情形，从去年夏天开始，美国编剧工会和演员工会联手发起大罢工，让好莱坞陷入长达数月的停摆，导致影视作品数量大幅减少。
据外媒宣布，这一情形在今年依然没有涌现好转，部分演员还被哀求在与华纳公司的条约中赞许利用“数字合成形象”，若谢绝则可能失落去事情机会。

从国产视频天生大模型的现有能力来看，制作动态海报、广告短片、殊效动画等已经不在话下，且运用处景还在扩展。
陈晓达认为，技能本身固然主要，但首先要让利用者节制标准化的工业流程，新技能才得以长效落地，“AI技能短韶光内没法取代演员和编剧的地位，但会利用AI技能的人很快就能取代他们”。

对此，上海大学温哥华电影学院在去年2月开始开设AI电影课程，一方面让学生学会利用AI来提升影视制作效率和节省本钱；另一方面也是为了顺应时期浪潮，不被“取代”。

排版／季嘉颖

图片／清影AI 抖音快手可灵AI 东方IC

来源／《IT时报》"大众年夜众号vittimes

E N D

每期AI知识网

国产视频生成大年夜模型大年夜爆发三分钟AI短剧批量上线

宁波外链SEO助力企业网站优化，提升网络竞争力

檀健次长相思AI角色热度破亿由腾讯元宝专属定制AI角色