中国版Sora哪家强实测8款视频生成大年夜模型结果意外

这些视频的背后，是“中国版Sora”的快速崛起。
今年年初，Sora在发出60秒视频一鸣惊人后，迟迟不上线变成了遥不可及的“期货”。
在这期间，多家中国厂商抢先入场，推出了视比年夜模型产品，包括字节、快手、阿里云、昆仑万维、美图在内的互联网厂商，以及Minimax、智谱、爱诗科技与生数科技等大模型初创等厂商都在快速跟进。

中国版Sora哪家强？近期，南都对8家热门视比年夜模型进行了测评，在文生视频方面创造天生效果参差不齐，而图生视频领域，大部分的产品还有很大提升空间。

实测8款视频天生运用（文生视频）↓↓

入局

中国版Sora哪家强实测8款视频生成大年夜模型结果意外

快手、字节、Minimax围攻Sora“期货”

今年春节期间，Sora的横空出世投下了一枚炸弹，瞬间让卷“文生文”“文生图”的大模型厂商开启了“视频的ChatGPT时期”。
不过，Sora一鸣惊人后却迟迟未上线，被外界称为“期货”

就在两三天前，10月5日，Meta抢在OpenAI之前推出对标的Sora的Meta Movie Gen。
据悉，这款运用可创建不同宽高比的高清长视频，支持1080p，不但可以通过文本输入天生视频，还可以通过文本对现有视频进行编辑修正。
此外，它还能天生配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像天生个性化视频，号称逼真程度超越sora。

扎克伯格的Meta动作并不算快，中国企业早已迫不及待，抢先布局。

今年3月尾，字节跳动旗下剪映团队研发的AI创作平台“即梦AI”开放内测，8月6日，该运用移动版正式上架至苹果运用商店，目前已拥有文生图、文生视频、图生视频等功能。

6月13日，美图推出基于美图奇想大模型、聚焦短片创作的平台MOKI。
创作者在平台上仅需经由前期设定、内容天生和后期制作，即可打造动画短片、网文短剧、故事绘本和MV，南都测试后创造制作出来的视频时长能到2分钟。

6月21日，快手旗下的可灵推出了图生视频功能。
7月24日，可灵宣告根本模型再次升级，在画面质量、运动表现方面均有所提升。

9月19日，阿里云通义万相发布全新视频天生模型，上线文生视频和图生视频功能。
在文生视频功能中，用户输入任意笔墨提示词，即可免费天生一段高清视频。

大模型初创企业方面，Minimax、智谱、爱诗科技与生数科技均在视比年夜模型方面有所布局。

早在今年1月，爱诗科技就正式发布AI视频天生产品PixVerse，能够免费天生4K高清视频。
到7月24日，爱诗科技正式发布视频天生产品PixVerse V2，一次天生多个视频片段，可实现单片段8秒和多片段40秒的视频天生。

值得一提的是，爱诗科技创始人王长虎曾在2017年加入字节跳动担当 AI Lab 总监，从0到1支撑了抖音与 TikTok 等国民级视频产品的培植和发展。
他曾公开表示，中国公司在短视频赛道做出了10亿级别的国民级产品抖音、TikTok，视频运用在中国有用户根本和成长土壤，且在AI天生视频这条赛道上有机会出身大的巨子公司。

今年4月，同为大模型初创企业的生数科技发布了视频天生模型Vidu，支持最长16秒、最高1080P分辨率视频的天生。
两个月后，视频时上进级为最长32秒。
不过，生数科技7月尾上线的Vidu官网仅供应4秒和8秒两种时长选择。

7月26日，大模型初创企业智谱AI宣告AI天生视频模型清影（Ying）正式上线智谱清言。
南都关注到，运用清影天生6秒视频只须要30秒的韶光，该功能不仅支持文生视频、图生视频，也支持视频天生视频。

9月2日，MiniMax发布了视频模型abab-video-1，并透露该模型压缩率高、文本相应好、风格多样，支持原生高分辨率、高帧率视频等特点，能媲美电影质感。

实测一

通义猫咪只看不做菜，生数科技猫爪变人手

对付视频天生的时长，生数科技CEO唐家渝曾对外先容，天生时长的能力，实质上与模型对物理天下和对语义输入的理解干系。
南都对上述8家企业进行测评后创造，目前各家厂商推出的视比年夜模型中，能天生的时长最长可到2分钟，最短的3秒钟。

八款视频天生大模型产品比拟测评

制表：南都林文琪。
（注：根据实测情形统计）

南都在测评中从第一性事理出发，C端用户用AI大模型做视频，追求的是效率的提升，或许还夹杂着对新科技的未知期待。
从这一点看，本次测评要考量的首先是AI大模型能否达到用户的基本哀求，这一点可以从输入指令后得出的视频来逐一测评是否达到基本效果，同时也比拟输出视频的时长。
其次，从用户对新科技的未知期待上，南都在测评时也将不雅观察，某些视比年夜模型能否做出让人意向不到的附加效果，比如运镜、视频风格上能否在完成基本需求的情形下有所打破。

近期，大批用AI制作的宠物视频在社交媒体上传播，以此为例，南都以“一只白猫和一只黑猫在厨房，左边的白猫在包饺子，右边的黑猫在切韭菜”为提示词对上述8款产品进行测试，结果创造效果参差不齐。

个中，阿里通义和抖音即梦推出的视频生成功能中，通义天生后两只猫并没有实现包饺子、切韭菜，而是看着一把刀对韭菜和饺子随意切了起来；而抖音即梦天生的视频中，两只猫试图伸爪子“参与”到包饺子和切韭菜活动中，但呈现出来的效果倒像是在蹑手蹑脚地嗅闻，“偷感”十足。

左图：阿里通义右图：抖音即梦

南都将上述同样的指令语句输入爱诗科技视比年夜模型pixverse中，黑猫和白猫没有理解“做菜需求”，直接“上手”吃饺子皮、啃韭菜，涌现“翻车”。

爱诗科技视比年夜模型pixverse

同样指令下快手大模型可灵文生视频模式理解了让猫“拟人化”做菜的需求，猫能用爪子包饺子，但是黑猫不切韭菜，直接拿起了刀切饺子。

快手可灵

智谱清影文生视频模型读懂了让猫拟人化做菜的需求，同时黑猫和白猫实现了各司其职，一个在做饺子，一个在切韭菜。
南都在测试时还勾选了“电影感、镜头推进、紧张刺激”等风格、运镜办法、氛围方面的哀求，测试出来的视频基本都能符合哀求。

智谱清影

生数科技Vidu视比年夜模型理解了让猫拟人化做菜的需求，在天生的视频中，两只猫处在一个当代化的厨房中，白猫学会了包饺子，黑猫虽然做出了切韭菜的动作，但画面中并没有刀，黑猫只能做出“挠爪子”的动作。

生数科技Vidu

不过，生数科技的Vidu视频在天生的视频中还涌现了一个画面转换的镜头，该镜头是将韭菜放进包好的饺子中间，不过放置韭菜的手变成了“人手”。

Minimax的海螺AI基本理解了提示词中想让猫咪拟人化进行做菜的指示，两只猫在包饺子、剁菜时的画面都十分了得，白猫虽然边“包饺子”边压抑不住本性想凑上前闻饺子，但还是把一个个饺子无缺地包了出来，黑猫也真的拿起菜刀开始“切韭菜”。

Minimax海螺AI

在美图MOKI视频平台中输入同一提示词，该视比年夜模型首先将提示词扩写成了完全脚本，同时依照选定风格天生了两个角色，随后会天生天生逐帧视频，用户可以在个中修正图片、移动位置，末了天生了一个视频，而用户可以选择后期对运镜、音乐等进行加工。

美图MOKI

实测二

图生视频比文生视频更易“翻车”

此外，南都还做了图生视频的考试测验。

比如，当输入一张有两只猫的照片，并输入提示词“两只猫在厨房，左边的猫在包饺子，右边的猫在切韭菜，两只猫相互瞪了对方一眼，镜头聚焦到包饺子的猫手上，它包得特殊快”，字节即梦、快手可灵的图生视频功能中，照片中的两只猫在天生的视频中仅仅能实现高下旁边晃头、时时时动动爪子，并没有实现包饺子、切韭菜等功能。

阿里云通义视比年夜模型实现了切韭菜的动作，不过韭菜和刀在画面中凭空涌现。
智谱清影也涌现了擀饺子皮、包饺子的动作，不过从输入两只猫的图片到天生擀饺子皮视频的过程中，视频画面衔接非常生硬，擀饺子皮的手也溘然从提示词中哀求的“猫爪子”变成了人的手。

此外，向爱诗科技pixverse中输入一张图片和上述提示词，图片中的猫动起来但并没有实现包饺子，而是在嬉戏吃饺子。

可以看到，相较于文生视频功能，目前大多数的视频模型的图生视频功能仍有很大提升空间。
大多数视频模型只能粗浅表现让照片中的两只猫动起来，能理解提示词并在视频中加入新物品、加入转场效果的视频模型并不多，也更随意马虎涌现“翻车”征象。

采写/视频：南都林文琪

每期AI知识网

中国版Sora哪家强实测8款视频生成大年夜模型结果意外

若何守护青少年用网AI若何赋能收集安然专家有话说→

最全AI漫画视频软件国漫/日漫/韩漫超多画风一网打尽