抢先体验豆包AI视频模型中国Sora争夺战字节赢了吗新榜洞察

豆包终于补齐了视频天生这块主要拼图。

在本日的火山引擎AI创新巡展深圳站上，字节一口气发布了两款视频天生模型：Seaweed和PixelDance（以下简称“S模型”和“P模型”）。

目前，火山引擎已经面向部分企业用户和即梦个人用户开启了约请测试。

在竞逐激烈的AI视频天生赛道，由于有着海量、丰富的高质量视频数据集，字节、快手等短视频平台了局做视频模型有着天然的上风。

抢先体验豆包AI视频模型中国Sora争夺战字节赢了吗新榜洞察

而字节豆包视频模型的表现，也不负众望地诠释了那句“Treasure in, treasure out”。

“AI新榜”有幸抢先体验了一波，试完我们只能说，AI视频创企们想要再造一个“抖音/TikTok”，恐怕没那么随意马虎了。

概括来说，豆包视频模型的亮点紧张包括：

精准语义理解，多动作多主体交互：比较于大部分视频天生模型只能完成单一动作的大略指令，豆包视频天生模型可以天生丝滑连贯的多动作和多主体交互。
强大的动态效果，灵巧运镜掌握：支持变焦、环抱、平摇、缩放，目标跟随等多种镜头措辞。
同等性切镜：在多个镜头切换时，保持主体、风格、氛围和逻辑的同等性，大幅提升了视频的叙事能力。
高保真、高美感、支持多种美学风格和不同比例：影视级画面质感，专业级色彩和和光影布局。
支持包括黑白水墨画、3D动画、2D动画、国画、厚涂等多种风格，以及1:1、3:4、4:3、16:9、9:16、21:9六种比例，适配各种终端，以及电影、手机竖屏平分歧画幅。

高调登场的豆包视比年夜模型在天生表现上如何？让我们先用一条视频，快速看看测试效果！
（为方便区分，视频无水印版为P模型，带有“即梦AI”水印为S模型）

更多细节解读，我们接着聊：

超强语义理解，梗图走向不再“抽象”

这次上线的PixelDance模型是团队开拓的DiT构造的视频天生大模型，最大上风是具有精准的语义理解能力，还能担保主体、风格、氛围的同等性。

要知道，AI视频天生在处理物理运动，尤其是人物动作方面非常随意马虎出错。
但P模型在多主体、多镜头表现上足够让人惊异。

比如，这张经典的梗图，豆包天生的视频动作幅度大，对付提示词的理解也更到位。
更关键的是，三个人物之间的互动自然，有不同的人物动作表现。

提示词：男子看着走过去的红衣美女，吹起了口哨，站在他一边的女士惊异地看着他，接着甩开男子的手离开了。

比较之下，可灵的图生视频对付多主体掌握就略逊一筹。
镜头一转，蓝衣女主秒变“恋爱脑”，抱着男主不放。
这么看来，要论脑洞，还是得选可灵。

可灵AI 1.5天生

还有任何一款AI视频工具都逃不过的“威尔史密斯吃面”：

提示词：一个男人正在吃意大利面，一边拿起羽觞喝起了红酒

图片+提示词也能轻松应对，不仅可以担保人物的同等性，包括嘴部也没有涌现明显瑕疵，还能遵照提示词中的“喝起了红酒”。

镜头无缝切换，实现逼真视觉效果

镜头运动：

提示词：第一人称视角，女子开着车在夜晚的街道行驶，镜头切到车窗外，窗外有烟花绽放。

可以看到，根据不同的镜头提示词，豆包视频天生模型可以让镜头跟随，实现镜头的缩放、变焦等等。

提示词：由巨大绿树组成的神秘森林，树枝像无尽的藤蔓向四周蔓延，森林中的光芒从缝隙中洒落。

此外，豆包视频模型在处理写实类风景方面表现出色，天生画面更倾向真实天下场景。
同样的提示词让最新的可灵1.5天生的效果更梦幻一点：

可灵AI 1.5天生

这次更新，豆包视频天生模型能够实现多镜头切换，并保持主体、风格、氛围同等性。

提示词：近间隔拍摄一位女歌手举起手机与粉丝们合照，镜头拉远，有一群拍照师对着女歌手拍照。

在提示词中我们哀求进行镜头切换，从特写镜头转向到全景镜头。
从视频天生的效果来看，除了末了一帧动作奇怪之外，Taylor人物的脸部没有涌现明显的技能瑕疵，全体视频画面流畅。

提示词：女人向右移动，男人站在原地打电话，镜头拉远露出繁忙的街道。

综合表现来看，豆包在镜头运动、人物面部掌握等方面都有一定上风，可以说，天生视频的“AI味”越来越少了。

风格化：

上周我们实测的通义万相在天生古诗词方面的表现可谓惊艳，来看看豆包大模型表现如何。

提示词：枯藤老树昏鸦，小桥流水人家，古道西风瘦马。
夕阳西下，断肠人在天涯。

比通义万相的动画风格，豆包天生的视频对“枯藤老树”“小桥流水”“夕阳”等元素进行了想象重现，画面在光影和视觉效果上相称惊喜。

值得一提的是，豆包天生视频后，我们可以选择是否进行“AI配乐”，为视频加入声音效果，进一步简化视频制作流程。

写在末了‍

间隔OpenAI官宣Sora仅过去了半年，海内头部互联网大厂和AI视频创企纷纭发力，试图争夺中国“Sora”的头把交椅。

3月，AI创企爱诗科技发布视频天生大模型PixVerse，目前已历经多次更新迭代。

6月，快手发布视频天生大模型“可灵”，对标Sora，支持通过文生视频、图生视频、视频续写功能，可天生最长2分钟、30fps的1080p高分辨率视频。

7月，生数科技旗下的视频模型Vidu面向"大众年夜众开放，能天生15s的视频，且大大缩短了天生所须要的韶光。
同期，爱诗科技发布视频天生大模型PixVerse V2，环球同步开放。

8月，大模型厂商智谱AI发布AI视频工具“清影”，并将模型“CogVideoX”开源。

9月19日，在云栖大会上，阿里云CTO周靖人宣告通义万相全面升级，并发布全新视频天生模型，可天生影视级高清视频，运用于影视创作、动画设计、广告设计等领域。

9月23日，美图公司宣告旗下美图奇想大模型（MiracleVision）视频天生能力、天生效率以及模型性能全面升级。

豆包视频天生模型发布后，有人称“字节闭幕了比赛”，终极结论如何，相信很快会得到验证。

每期AI知识网

抢先体验豆包AI视频模型中国Sora争夺战字节赢了吗新榜洞察

PS插件大年夜全套介绍

我和这个打破次元壁的国产 AI 扯淡比跟 ChatGPT 谈恋爱还上头