2024年开年,科技圈没有什么比Sora的涌现更让人愉快。

犹如ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频天生模型推到了风口浪尖。

科技巨子猛推产品,创业公司则乘风而上。

3月13日,AI视比年夜模型公司爱诗科技完成亿元级公民币A1轮融资;3月12日,生数科技完成数亿元A轮融资;3月1日,AI视频天生 SaaS做事商「布尔向量」完成近千万元融资...

8款AI视频生成产品实测谁将成为中国Sora

Sora首次践行了DiT架构,将过去各自独立的扩散模型和大模型领悟在了一起,也将视频天生模型的历史翻开了新的篇章。

毫无疑问,一场新的技能风暴正在到来。
一夜之间,海内大大小小的视频天生大模型争抢“中国版Sora”的标签。

为了探究这个问题的答案,「自象限」通过海内已有的视频天生产品进行实际体验,并结合公开信息、第三方检测机构数据等多个维度,对当下主流的视频天生模型进行了全面评估。

我们将从产品设计、实测效果和行业剖析三个角度,全面探究,究竟谁能成为“中国版Sora”?

DIT的创新,谁能复刻?

Sora的风虽然才刚刚从大洋彼岸吹到了中国,但视频天生却不是什么新鲜的话题。

在此之前,这个赛道已经经历了Runway的Gen-2、Pika1.0和谷歌VideoPoet的几波革命浪潮,终于来到了天生效果更好、韶光更长、逻辑性更强、更稳定性的“Sora”时候。

「自象限」梳理绘制出了海内视比年夜模型公司及产品的基本情形。

图:国内外视频天生大模型企业一览,访问量以2024年2月计

在国外,谷歌、微软这类“硅谷老钱”很早就投入到了多模态视频天生的研究中。
去年,谷歌发布了多模态大模型Gemini和VideoPoet视比年夜模型,让人从直不雅观的效果层面看到了多模态天生视频的可能性。

在海内,多模态技能路径方向上我们看到了更多的可能性,既有技能积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。

扩散模型路线是文生视频的主流路线,在担保效果天生上发挥着重要的浸染,以是纵然是惊为天人的Sora在底层架构上也只是改造,而非通盘颠覆。

无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的Stability AI公司,紧跟其后的是猛猛向前冲的Runway、Pika,然后才是OpenAI、Meta、英伟达这些巨子。

回到海内,腾讯、阿里、字节三个大厂在前期险些经办了视频天生领域的研究,时时时地抛出一个demo小小地惊艳一下。
但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、Morph studio、右脑科技等公司已经开始面向用户开放。

被称之为“Sora路线”的DiT,全称为Diffusion Transformer,实质是把演习大模型方法机制融入到了扩散模型之中,从Sora技能报告呈现的结果来看,大力失事业之下可能会产生天下物理仿照器的效果。

如今,Sora的底层架构被扒了个遍,演习的组件和技能也在开源的路上,但这也并不虞味着人手一个Sora指日可待,技能、数据、算力、演习规模都是一道道关卡。

近期,Sora核心团队卖力人在采访中透露:“Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。

从技能路线上看,海内的爱诗科技是少数从一开始就坚持了DiT路线的企业,其创始人王长虎在公开采访中谈到,Sora的涌现验证了爱诗视频天生大模型的方向精确性。
正因如此,爱诗科技定下了“3—6 个月赶超Sora”的目标,捉住机会,奋起直追。

产品实测,用户“跑分”

在视频天生模型赛道,目前海内的创业公司大致可以分为两类。

一类因此爱诗科技(PixVerse)、生数科技(PixWeaver)、 Morph Studio和智象未来(Pixeling)为代表的自研根本大模型,聚焦通用场景的视频天生工具。

另一类则包括右脑科技(Vega AI)、李白AI实验室(神采promeai)、毛线球科技(6PenArt)、布尔向量(boolv.video)和MewXAI(艺映AI)。
这一类数量更多,也更加产品化,专注于办理某一类场景下的问题,更像是一个AIGC的在线编辑平台。

我们的测试和评比通过三个部分组成,分别是利用门槛,根本产品功能和内容天生能力。

首先是利用门槛。
我们测试的8款产品,都已经支持通过网站利用产品(许多创业公司产品只能通过Discord利用),也都可以免费试用。

但个中,仅有爱诗科技的PixVerse不限定免费试用次数,其他产品都有三到五次的试用限定,超过试用次数之后就须要开通会员或充值能量利用,价格从几元到几百元不等。

除了PixVerse之外,其他产品在付费之前基本都有功能限定,比如艺映AI和Pixeling只能天生2s、4s的视频,更长的视频则须要付费。

以是从利用门槛上综合考虑,PixVerse对用户要更加友好,在这一板块相对更有上风。
其他产品在利用门槛上则相对均匀。

详细情形如下图:

其次是产品根本功能。

我们测试的8款产品,除了神采Promeal和6PenArt之外,都同时具备文生视频和图生视频的能力。
而神采Promeal和6PenArt只具备图生视频的能力,不具备直接文生视频的能力。

除了这两家之外,其他厂家就比较成熟,但产品功能差异却比较大。

个中,爱诗科技的PixVerse在根本功能之上还增加了丰富的赞助功能,比如除了正向提示词,用户还可以输入负向提示词,哀求天生画面中不要涌现某些元素。

图片天生视频时,用户也可以撰写提示词掌握输出效果。
可以选择视频风格,可以调节画面比例等等。

同类产品中,只有Pixeling拥有负向提示词、图生视频提示词和视频比例调节,只有艺映AI可以调节视频风格、画面比例。

大模型的技能水平决定视频天生的质量,而产品能力则决定了大模型是否能够被很好地利用,与运用处景相结合。

对付视频天生产品而言,功能的丰富程度决定了用户上手的随意马虎程度,对视频天生的掌控能力,并终极影响输出结果和用户体验。

以是从产品的完善程度和功能完全度上,PixVerse整体领先,智象未来的Pixeling排名第二,艺映AI第三,Vega AI第四。
个中布尔向量相对例外,作为专注跨境电商的视频天生工具,其在特定场景下功能更加完好易用,但在视频天生方面相对缺少竞争力。

当然,基本功能之外,更核心还是视频天生效果。
以是第三部分是视频内容天生能力测试。

首先是视频天生时长。
Sora目前能够天生60s的视频,但海内创业公司的视频天生大模型,时终年夜多集中在2s~4s旁边,差距并没有特殊大。

其次是依据提示词的内容表现能力。

Sora发布时,输出过这样一段视频,其提示词是:俏丽,白雪皑皑的东京街道很繁华。
几个人在附近的小摊上享受着俏丽的雪天并购物。
俏丽的樱花花瓣和雪花在风中飞舞。

Sora依据这段提示词天生的视频

依据这段提示词,我们也分别利用爱诗科技的PixVerse、右脑科技的Vega AI、MewXAI和智象未来的Pixeling天生了同样一段视频。
(由于生数科技的PixWeaver网页端停息试用,故未纳入测评)

首先是爱诗科技的PixVerse。

4s的内容基本还原了提示词中提到的所有关键词,同时表示了“繁华”和“小摊”的氛围。
镜头随着画面缓缓推进,视频整体风格保持同等,建筑、灯光、路旁的树木、行人都比较真实,画面没有明显卡顿,除了人物行走稍有些不自然之外,没有涌现元素扭曲。

PixVerse依据这段提示词天生的视频

其次是右脑科技的VegaAI。

同样4s的内容,同样只有一个镜头,顺着人流密集的街道缓缓推进。
但与PixVerse将场景放到华灯初上的傍晚不同,VegaAI选择的这天间。

与爱诗科技的PixVerse比较,VegaAI的人物脚步混乱情形更加严重,部分人物在行走过程中从两只脚变成三只脚,然后又消逝不见。
此外,部分人物的天生也非常模糊,只有一个人影且在不断变幻。

Vega AI依据这段提示词天生的视频

然后是艺映AI。

与PixVerse和VegaAI有一定的镜头运动不同 ,艺映AI天生的视频镜头是固定的,也是这几个视频中唯一一个选择了正面视角的视频。

但选择正面视角也同样给艺映AI带来一个问题,即在人物的面部表情没有办法很好地处理。
视频中劈面走来的两个人面部一贯没有稳定下来。
此外,艺映AI也同样存在人物移动的问题,但由于天生的视频只有2s,表现得并不明显。

艺映AI依据这段提示词天生的视频

第四是智象科技的Pixeling,4s的视频,采取固定镜头,人物往前运动。
类似的画面,除了同样存在人物天生、移动等方面的问题之外,Pixeling对语义的理解明显更浅。

比如提示词中的“繁华”,前面的视频都通过灯光、街道店铺、人流来进行表现,但Pixeling选择的却是一个雨天小巷,人流也比较少。
全体画面显得比较生僻。
此外,提示词中的“购物”该视频中也并没有表示。

Pixeling依据这段提示词天生的视频

末了是Morph Studio。
其官网尚未开放公测,「自象限」通过Discord进行测试。

Morph Studio有趣的地方有两个,其一是英文提示词的天生效果要大大好于中文提示词。
「自象限」先是通过中文提示词天生视频,得到的结果与提示词绝不干系,随后「自象限」将提示词改为英文,输出的效果直线提升。

图片:Discord截图

从视频内容上看,Morph Studio的视频天生只有3s,要比其他产品的时长都要短,清晰度要比其他产品更低一些,但整体画面内容更加写实。
从细节上看,Morph Studio天生的视频仍然存在细节模糊扭曲,人物“漂移”、涌现又消逝等问题。

在文生视频之外,剩下两位只支持“图生视频”的玩家——神采Promeal和6PenArt。
但这两位,在图生视频上的表现也并不好。

个中,神采Promeal仅支持单张图片天生“动态图”,也没有提示词功能。
因此天生的视频人物形象扭曲,没有实际利用代价。

比拟来看,6PenArt更像一个AIGC的内容社区,图片天生和视频天生只是个中一个能力。
但6PenArt并不支持直接通过提示词天生视频,而是须要先在平台通过提示词天生图片,然后将图片转化成视频。

「自象限」通过提示句“一只正在闲步柯基,嘴里叼着一朵花。
”天生了四张图片。

图片:6PenArt截图

然后以这四张图片为根本,用提示词“一只在春天里奔跑的小狗。
”天生视频。

可以看到,这个视频仍然勾留在“动态图片”的状态,与视频相差甚远。

除此之外,布尔向量也没有被纳入到这次评比中。

由于从产品利用体验上,布尔向量的boolv.video更像是一个AI编辑器的观点,当我们输入一段提示词之后,系统会自动将提示词拆解成多个脚本、分镜,然后撰写文案,分别输出多段视频。
天生视频之后,用户可以对每一个分镜进行编辑,更换视频、改换旁白和声音等等。

但boolv.video的视频天生能力实在很有限,既无法理解深度语义,也不能天生与提示词准确对应的视频内容。

在我们以上测试的产品中,严格意义上只有PixVerse、Morph Studio是专注于视频天生的大模型,其他产品都是由早期文生图、图生图的AIGC运用演化而来。

图片:测试产品是否专注于视频天生

回过分来,我们依据多次测试,针对以上提到的产品进行了整理。

从对提示词的理解能力、画面的逻辑表达能力、画面细节的表现,到视频天生的质量、画面的同等性、稳定性和流畅性等角度。

在测试的8个产品后,综合比拟下来,爱诗科技旗下的PixVerse和Morph Studio综合能力相对较好,右脑科技的VegaAI排名第二,艺映AI第三,Pixeling第四。

末了,从全体测评从利用门槛,到产品功能,再到内容天生能力,中国创业公司的各种产品各有千秋。
但整体来看,在中国创业公司中,爱诗科技的PixVerse整体能力略高一筹,是中国最具备Sora气质的产品。
其次是Morph Studio,这两者构成中国视频天生模型的第一梯队。

其次包括VegaAI、艺映AI、Pixeling则共同处在第二梯队(生数科技因产品停息利用,未纳入测评),末了神采Promeai、6PenArt和boolv.video则在第三梯队。

以下是「自象限」测评总表:

用生产工具,形成数据飞轮

事实上,比拟了海内科技巨子和创业公司到目前为止的落地产品后的情形我们会创造,大公司更慢,反而是创业公司的产品和用户规模跑地更快。

李彦宏也曾经提到:大公司做小创新,小公司才能做大改变。

而想要真正在激烈的竞赛中突围,目前来看,除了技能路线选择和产品本身的能力外,产品的利用场景、用户体验、行业运用等等综合维度,仍旧是视频天生模型比拼的关键。

产品利用场景方面,如前文所言,一类公司在专一做新工具而另一类公司则将技能嵌入在某些成熟的产品中,这是两条完备不同的路线。

对付工具类的产品,产品力的一个核心表示在于:能否成为生产力工具。

让我们大略回顾一下Midjourney的发展进程就会创造,Midjourney V5版本是文生图历史上的一个关键临界点,无论是从效果、准确性和速率等多方面的成分来看,V5正式从“玩具”蜕变成了生产力工具,而这一次产品能力的打破,带来的是用户大规模涌入,数据飞轮开始迁徙改变,效果日月牙异。

图:网友制作的V1-V6的天生效果比拟图,来源X

比拟“V5时候”我们创造,视频天生模型也即将迎来奇点。

通过真实的测评我们创造,PixVerse天生的视频在主体同等性、运动平滑度、运动幅度、清晰度等方面都更具备利用代价。

在生产力工具的条件下,也分为两条产品路线,一类是如Adobe公司践行的走专业工具的路线,让专业的人更专业,另一类则是如Word一样平常,让普通人也能成为生产力。

在这个问题上,Pika创始人郭文景在采访时表示Pika并不是电影制作工具,而是为日常消费打造的产品。

PixVerse的思路则更加明确,比较于Pika分层订阅的商业模式,PixVerse在用户量和视频效果都处于环球第一梯队的条件下,仍在持续向天下各地免费开放,这是目前其它视频天生产品都难以企及的。

也正是由于用户友好的态度和领先的视频天生效果,让PixVerse的飞轮先转了起来。
根据第三方数据监测平台显示,目前PixVerse的用户规模与Pika处于同等量级,其访问量也远超海内其他主流视频天生产品。
(数据来源:similarweb.com)

PixVerse,与Pika,Runway产品页面2024年2月数据比拟

海内紧张文生视频产品2月数据比拟

海内紧张文生视频产品数据走势

通过调研我们创造,爱诗科技还积极在国内外资助/举办各种AI大赛,推动技能加快落地的同时,也在加速实现技能普惠。
这个过程中,也有越来越多的用户感想熏染到其产品PixVerse的上风。

除此之外,爱诗科技的用户生态做得非常突出,X上每天都会呈现大量利用PixVerse创作的视频内容,覆盖英语、汉语、日语、西班牙语等多地区。
这是其它海内品牌完备不具备的上风,也一定程度上反响了市场的选择。

“PixVerse第一个优点是免费、免费、免费;第二个优点是操作简便且有效,我只须要把图片放进去,不写任何prompt,让PixVerse自己决定画面运动,每每都能得到满意的结果。
期待PixVerse可以实现更大幅度的运动以及更长更稳定的视频。
” 2024 MIT AI电影黑客松最佳影片提名奖得到者反馈到。

自象限认为,免费并不虞味着放弃商业化,而是在产品打磨的初期,通过这样的办法得到真实的用户利用体验和用户天生后的高质量视频数据,再反哺给视频天生模型,将迭代的速率加快,形成数据—演习的飞轮。

结语

综合来看,目前海内全体视频天生模型的技能仍旧在效仿国外,但以爱诗科技为首的创业公司已经找到了自己的发展节奏和模式,正通过产品设计、用户规模、运营策略等综合能力进行全面赶超。

比较之下,Sora目前并未开放,能否承受住大规模用户同时在线尚未可知,能否能每次都做到准确、同等的1分钟视频天生仍有待考验。

以是,并不一定非要找到中国版Sora,以爱诗科技为代表的中国视比年夜模型公司,已经走出了新的、独立的上升曲线。