视频生成模型哪家强豆包可灵通义海螺周全评测AI评测

比较贴切的表述是，豆包的视频模型这次的升级，已然将海内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

作者|斗斗

出品|家当家

海内的文生视频领域，也是吃上“细糠”了。

视频生成模型哪家强豆包可灵通义海螺周全评测AI评测

最近，火山引擎宣告豆包大模型正式发布视频天生模型。
至此，两大短视频平台在文生视频领域的较劲正式开启。

家当家也是在第一韶光提前感想熏染了一把。
先来几个demo，给你们一个小小的震荡。

很明显，这天生效果并不亚于Sora。

要知道，Sora在初期的宣扬和宣布中被授予了很高的期望。
然而，至今为止，Sora尚未真正面向普通人群运用，可以说是实实在在的期货。

为了更加客不雅观的展示豆包文生视频模型的真实能力，家当家申请到即梦AI内测版的豆包视频天生-Seaweed模型测试机会，将其与海内几家主流文生视频模型，进行了同一提示词下的天生效果比拟，意外看到了豆包文生视频模型的一些新亮点。

一、繁芜指令下，足够听话

众所周知，拍摄电影时，导演会辅导演员进行多个镜头的拍摄，然后剪辑成连贯的故事。
如果一场戏的角色比较多，导演则须要统筹演员的站位、进场韶光以及他们之间的对话、动作等。

只有这样，拍摄出来的画面，才会更加流畅。
然而，对付当下的文生视频模型而言，大部分只能完成大略指令单一动作。
比如只能天生单一的镜头，无法切换，人物动作也较为单一。

这样天生出来的效果，实在和照片差不多。
但是在豆包视频天生模型的平台上，有了新的打破。

提示词：一群朋友在餐厅里聚餐，然后个中一人溘然提出一个惊喜的操持。

豆包-Seaweed天生的视频中，涉及诸多人物的动作处理。
可以创造每个人物的动作表达、面部表情都较为和谐，虽然一些细节有待优化，但整体上已经十分精良。
可以实现多主体多动作的画面天生。

海螺AI在整体画面构图、和光的利用方面一如既往的出色。
不过画面中的人物险些都涌现了或多或少的畸变。

可灵AI天生视频，总体来看人的动作较为大略，画面也缺少一些真实性。

能看到，通义万相人物动作较为大略，真实性、自然流畅性相对较弱。

总体来看，豆包视频天生模型还是十分“听话”的，可以屈服繁芜的繁芜prompt，解锁时序性多拍动作指令与多个主体间的交互能力，指哪儿打哪儿，打开想象力的大门。

二、推拉摇移跟

画面依旧稳定、同等

豆包文生视频模型，还有一个比较分外的点，即它天生的视频画面整体的故事性很强。

提示词：男子从通亮的室外走进阴暗的室内，镜头切换要自然，光芒变革要平滑。

可以创造，在提示词描述的文本之外，其对付周围环境以及画面的细节衔接和过渡很自然。
这本身对应的是模型强力的泛化能力。

例如从下面这组提示词天生的画面来看，豆包天生的视频相对更有画面感、更连贯。

提示词：一名女子奔跑在惨淡湿润的街道上

画面中地面的石板路，路边的房屋，以及奔跑的女人，在运动逻辑、灯光、流畅度上，都表现的十分精良。

可灵天生画面中的女子的肢体发生了不规则的扭曲。

通义万相天生的视频，整体很不错，但在像地面这种细节的效果处理上，还须要进一步强化。

海螺AI有着通义万相一样的问题，仔细创造人物在奔跑时，路面的天生效果并不稳定，且人物和画面之间的衔接度并不自然。

从几组天生的视频不丢脸出，豆包文生视频模型，在利用镜头措辞时，画面较为稳定，可以担保人物、氛围、环境的同等性，以及镜头的自然切换和运镜的自然。

比如基于豆包-Seaweed，我们可以身临其境的感想熏染肌肉男选美现场。

还可以穿越森林，看到远处壮不雅观的雪山。

可以创造，无论镜头怎么推进和切换，视频中的画面风格、人物、灯光、衣饰等都依旧有着同等性。

其余一个更加炸裂的点，在于豆包视频天生模型还能实现主体动作和镜头的切换。
这么说可能有点难懂，简而言之便是当画面中的人物在运动过程中，可以实现镜头自然切换。

正如下方豆包文生视频模型天生的视频，先是涌现一个跟镜头，继而切换到以人为画面主体的跟镜头。

提示词：天生一段视频，哀求镜头跟随主角在森林中探险，包括跳跃过溪流和攀爬岩石。

详细来看，天生的视频中，一个空境交代背景环境，切换到另一个以人物为画面主体的推镜头。
这种镜头切换手腕，也叫“镜头匹配剪辑”。
利用了两个镜头中相似的动作或运动方向来平滑地过渡，从而减少视觉上的跳跃感。

这种技巧须要精心的拍摄和编辑，以确保动作的匹配和视觉的连贯性。

但是豆包的视频天生模型，做到了。

比拟可灵AI的天生结果来看，画面中并未涌现运镜和镜头切换的痕迹。

海螺AI基于这个提示词的天生效果实在各方面效果其实不错，但是在场景切换时，可以创造，其第一个镜头切换的同时，画面左方涌现了一个分身，走出了画面，可见场景切换上还须要优化。

通义万相天生的效果，实在较为充分展现了其在语意理解上的上风，尤其是“跳跃过溪流和攀爬岩石”实现了语义同等性，但未实现多个场景、镜头上的切换，且人物流畅度和自然度也有可以优化的空间。

不得不承认的是，豆包视频天生模型确实是有两把刷子。

据官方先容，这是由于豆包视频天生模型基于 DiT 架构，通过高效的DiT领悟打算单元，让视频在大动态与运镜中自由切换，拥有变焦、环抱、平摇、缩放、目标跟随等多镜头措辞能力。
其全新设计的扩散模型演习方法占领了多镜头切换的同等性难题，在镜头切换时可同时保持主体、风格、氛围的同等性。

这是豆包视频天生模型独树一帜的技能创新。

三、大场景描述

光影、镜头、构图美学拉满

在文生视频领域，大场景的天生，由于涉及的元素过度，每每是最随意马虎涌现问题的。
而经由我们测试，豆包的文生视频模型，也非常不错。

从下面豆包、可灵AI、通义万相以及海螺AI（MiniMax文生视频平台)天生效果比拟来看。
豆包天生的视频，不仅画面构图、色调十分精良，乃至把清晨湖面的雾气也刻画了出来。

不知道的，还以为是在看《动物天下》。

提示词：清晨，第一缕阳光穿透薄雾，照亮了宁静的森林。
一只小鹿在溪边饮水，水波荡漾，反射出金色的光辉。

可灵AI在色调和构图上也可圈可点，但细看鹿的动作连贯性和真实性，就显得有些不敷。

通义万相整体不雅观感也不错，语义理解能力较强，例如“反射出金色的光辉”这细节，通义万相刻画的最好，但有点缺少真实性，更像是动画。

海螺AI的画面，在写实能力上较强。
但由于角度和构图的问题，整体来看，主体的灵巧性较差，对文本的理解力不敷，此外也缺少一些美感。

实在，豆包视频天生模型，经由剪映、即梦AI等业务场景打磨和持续迭代，在专业级光影布局和色彩调和积累了大量的数据和技能履历，画面视觉呈现上面，可谓是实现了延续，使得豆包处理这种大场景时，既能刻画细节，又极具美感和真实感。

图示：各家视频天生效果表现汇总

四、各种风格、尺寸，都Hold的住

根据先容能看到，豆包视频天生模型采取的是Transformer深度学习模型的架构，并且进行了优化。
这种架构，可以使模型更加强大，泛化能力也会更强。
从风格来看，其可以天生3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。

此外，天生的视频可以适应不同设备的屏幕尺寸，包含1:1，3:4，4:3，16:9，9:16，21:9五个比例。
无论是电影大屏幕、电视、电脑还是手机，都能不雅观看。

这些视频目前可以被用于电商营销（如产品展示视频）、动画教诲（如传授教化动画）、城市文旅（如旅游宣扬视频）、微剧本（如短视频故事）等多种商业用场。

除了商业用场，豆包还能帮助专业的视频创作者和艺术家们在创作过程中节省韶光，供应灵感，或者完成一些繁芜的视频制作任务。

写在末了‍

末了对豆包的文生视频进行一个总结。

首先它是一个语义大师。
它不仅听得懂你的指令，还能理解背后的深层含义，让视频里的每个动作都恰到好处。

还是一个镜头切换高手。
在切换镜头时，它能担保故事的流畅和同等性，就像一个无缝连接的叙事大师。

更是一个动态捕捉专家。
无论是快速的动作还是炫酷的镜头移动，它都能捕捉得生动活泼，让你仿佛置身于真实天下。

也可以是一个视觉艺术家：它创造的视频不仅清晰逼真，还具有专业的色彩和光影，支持多种风格和尺寸，让你的视觉体验丰富多彩。

比较贴切的表述是，豆包的视频模型这次的升级，已然将海内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

在文章的末了，想要强调的一点是，文中所提到的天生的视频都是基于豆包视频天生模型S 2.0的非会员版本。
目前，具备更强多主体互动、多镜头切换同等性能力的豆包视频天生模型-PixelDance，正在紧锣密鼓的内测上线中，或许能给大家带来更多惊喜。

豆包，多少是有点不露圭角，闷声干大事了。

每期AI知识网

视频生成模型哪家强豆包可灵通义海螺周全评测AI评测

一文学会高手都怕的滑板吊球细节慢动作示范

10000杯蓝同伙的奶茶上线快来打卡