字节版Sora终于来了一口气两款视频模型带来的震撼不只一点点

作者：杨文

我们用17个Prompt，实测了一把字节的两大视频天生模型。

字节憋了个大招。

9 月 24 日，字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展，一口气发布了两款视频天生大模型，正式发布进军 AI 视频天生。

字节版Sora终于来了一口气两款视频模型带来的震撼不只一点点

这两款模型，一个名为 PixelDance（以下简称 P 模型），一个名为 Seaweed（以下简称 S 模型），不仅在审美、动幅上提升了一个 level，还破解了多主体互动和同等性难题。

话不多说，先整几个视频让大家感想熏染下：

一位年轻女生微簇眉头，生气地戴上一副墨镜，这时，男主角入画，牢牢抱住了她。

这段 10 秒的镜头中，人物面部表情变革自然，没有任何虚化崩坏。

视频加载中...

再如，一只金毛小狗在草地上追逐泡泡。

（AI 自动配乐）

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

以及一个 3D 风格的可爱小女孩正在舞蹈。

（AI 自动配乐）

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

看来，字节这次是把攒了许久的绝活儿，一股脑全倒出来了。

目前，新款豆包视频天生模型正在即梦 AI 内测版小范围测试，未来将逐步开放给所有用户。

我们也在第一韶光拿到内测资格，接下来，就奉上新鲜出炉的一手实测。

解锁多动作、多主体

目前，市情上大部分视频天生模型，只能完成大略指令或者单一动作。
而这次，豆包视频天生模型一顿升级，不仅可以遵照繁芜 Prompt，还能捕捉多动作序列和主体互动。

例如，梵高站在自己的画作前，捂嘴大笑起来，脸上的褶子都清晰可见；随即又秒变严明，手缓缓落下，捋捋自己的小胡子。

整套动作行云流水，表情自然逼真。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

再比如，我们输入 Prompt：两名宇航员行走在夜晚繁华的街道上。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

两名身穿宇航服的航天员，一前一后溜达在繁华街道上，身后人来人往，两侧的建筑亮起了绚丽的灯光和店招。

众所周知，AI 最随意马虎犯的毛病之一，便是旁边腿不分，或者惊现四条腿。

而在豆包视频模型中，二人走路姿势正常，险些与真人无异，没有模糊、扭曲，也没有涌现各种诡异画面。

我们还输入了一段形容词贼多的 Prompt：一只蜗牛在雨后的森林地面上缓缓爬行，它身后留下一条闪闪发光的粘液轨迹。
蜗牛的触角谨慎地移动着，它的壳的每一段都有风雅的纹理。
一个摄像机跟踪着蜗牛的缓慢旅程。
镜头非常靠近，以至于蜗牛壳和身体上的水点清晰可见，地面的细节也展现得非常清楚。

豆包模型天生的视频中，蜗牛优柔的躯体缓慢向后蠕动，触角也随之扭捏。
硬硬的壳上有着风雅的纹理，上面还沾着眇小的水珠。

由于是特写镜头，森林的背景自然虚化，而雨后地面的水洼则清晰可见。

Prompt：许多水母在水下贱动，它们的身体透明，在深海中发着光。

画面中涌现了大大小小的透明水母，它们轻轻伸开伞盖，再牢牢紧缩，触手也在水中自由摆动。

Prompt：写实，一个小女孩吹生日烛炬，然后笑了。

镜头中，一个头戴寿星帽的小女孩，张着嘴巴吹烛炬，脸上露出微笑。
同时，身后的亲友团，或鼓掌、或拍照。
该视频中的人物不仅多元，动幅也很大。

动作灵巧，运镜酷炫

这次豆包视频模型还有一大特点 —— 镜头多样。

变焦、环抱、平摇、缩放、目标跟随等超多镜头措辞，它都能灵巧掌握视角，而且视频细节更丰满，表情更丰富。

Prompt：一个推进镜头，沿着树木成行的郊区住宅街道拍摄，白天，天空晴朗湛蓝，色彩饱和，比拟度高。

随着镜头缓慢推进，干净的街道、树木掩映的成排小别墅映入眼帘，画面中还展示了精良的光影效果。

Prompt: 北极光在北极天空中舞动，星星闪烁，白雪覆盖的景不雅观的延时拍照。

天空舞动的极光，在雪地上映射出相应的颜色。
豆包模型天生的这段延时拍照，切实其实和记录片拍摄的一模一样。

我们还试了下图生视频，上传图片后，输入 Prompt：金鱼游动，水中冒着气泡。

别看这个 Prompt 大略，豆包模型的「脑回路」却繁芜得很。
不仅完美遵照笔墨指令，还学会了摇镜头。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

画面一开始，水缸中的金鱼开始游动，并伴随着大量气泡。
随后，镜头一拉，现出女孩全身，她在水中缓缓转过身，发丝和宽松的衣摆在水中的漂浮感，以及头顶露出水面的状态，豆包模型均捕捉到位。

此外，豆包视频模型还采取全新设计的扩散模型演习方法，成功占领了多镜头切换时难以保持同等性的困扰，可 10 秒讲述一个起承转合的故事。

比如，用它天生一段睡美人的故事。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

睡美人躺在床上陷入沉睡，窗外的小鸟叽叽喳喳也吵不醒她，这时一位王子俯下身吻了睡美人，试图唤醒她。

在这个 prompt 中，涉及多个镜头的切换，但主体、风格、氛围和逻辑仍能保持同等性。

审美高等，风格多变

豆包新模型采取深度优化的 Transformer 构造，大幅提升了视频天生的泛化能力，黑白、3D 动画、2D 动画、国画、厚涂等多种风格，它通通支持。

比如，一只戴着墨镜颇具喜感的北极熊，蹬着四只爪子在海里畅游，水面上泛起微波，乃至还折射出了北极熊的影子。

（Prompt: 戴着墨镜的北极熊在海里拍浮。
)

再来个动画风格的。

身穿灰色时尚卫衣的猫咪，迈着「六亲不认」的步伐，走在星光闪耀的 T 台上。

个中，猫咪眨巴着眼睛，毛发和衣服褶皱处理得也相称逼真，胸前的两根衣带也能随着步伐而摆动。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

（Prompt：一只拟人小猫正在 T 台上走秀。
）

呆萌二哈一身潮范儿，头戴棒球帽，手端咖啡杯，仰开始，伸开嘴，就将其一饮而尽，随后，P 模型发挥想象力，让二哈顺手将咖啡杯放置在两侧的椅子上，整套动作行云流水，很是流畅自然。

视频链接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

（Prompt：二哈正在喝咖啡。
）

阳光明媚，树影斑驳，两只拟人化的企鹅，戴着 Fashion 的墨镜，舒畅地坐在沙滩椅上晒着日光浴，时时时还唠上两句磕儿。

（Prompt：动画风格，两只拟人化的企鹅，戴着墨镜，坐在沙滩椅上晒太阳。
）

两只卡哇伊的毛绒小怪物，摇头晃脑地跳着舞，画风有种迪士尼的觉得。

豆包视频模型对付细节的把握也是相称到位，比如小怪物晃动身体时，头上的毛发也会随之起舞等。

（Prompt：两只毛茸茸的微型可爱怪物，正在舞蹈，3D 渲染，Octane，柔和的照明，梦幻般的散景效果，电影感。
）

小猫晃动着爪子，和小熊猫玩亲亲，细节层次丰富，光影随着主体运动而变革，大幅提升画面视觉审美。

（Prompt：小猫和小熊猫愉快地跳着，然后拥抱在一起。
）

不仅如此，我们还可以拿它制作广告大片。

例如，先通过即梦的文生图功能，搞出一张喷鼻香水的商品图。

然后再通过图生视频功能，输入 Prompt：蓝色的烟雾缓缓升起。

效果如下：

大家以为豆包视频天生模型水平咋样呢？来评论区聊聊吧。

每期AI知识网

字节版Sora终于来了一口气两款视频模型带来的震撼不只一点点

若何用AI完成文章续写教你3种AI续写的方法

点点AI创造个性化智能伙伴让生活更便捷