豆包终于补齐了视频天生这块主要拼图。
在本日的火山引擎AI创新巡展深圳站上,字节一口气发布了两款视频天生模型:Seaweed和PixelDance(以下简称“S模型”和“P模型”)。
目前,火山引擎已经面向部分企业用户和即梦个人用户开启了约请测试。
在竞逐激烈的AI视频天生赛道,由于有着海量、丰富的高质量视频数据集,字节、快手等短视频平台了局做视频模型有着天然的上风。
而字节豆包视频模型的表现,也不负众望地诠释了那句“Treasure in, treasure out”。
“AI新榜”有幸抢先体验了一波,试完我们只能说,AI视频创企们想要再造一个“抖音/TikTok”,恐怕没那么随意马虎了。
概括来说,豆包视频模型的亮点紧张包括:
精准语义理解,多动作多主体交互:比较于大部分视频天生模型只能完成单一动作的大略指令,豆包视频天生模型可以天生丝滑连贯的多动作和多主体交互。强大的动态效果,灵巧运镜掌握:支持变焦、环抱、平摇、缩放,目标跟随等多种镜头措辞。同等性切镜:在多个镜头切换时,保持主体、风格、氛围和逻辑的同等性,大幅提升了视频的叙事能力。高保真、高美感、支持多种美学风格和不同比例:影视级画面质感,专业级色彩和和光影布局。支持包括黑白水墨画、3D动画、2D动画、国画、厚涂等多种风格,以及1:1、3:4、4:3、16:9、9:16、21:9六种比例,适配各种终端,以及电影、手机竖屏平分歧画幅。高调登场的豆包视比年夜模型在天生表现上如何?让我们先用一条视频,快速看看测试效果!
(为方便区分,视频无水印版为P模型,带有“即梦AI”水印为S模型)
更多细节解读,我们接着聊:
超强语义理解,梗图走向不再“抽象”
这次上线的PixelDance模型是团队开拓的DiT构造的视频天生大模型,最大上风是具有精准的语义理解能力,还能担保主体、风格、氛围的同等性。
要知道,AI视频天生在处理物理运动,尤其是人物动作方面非常随意马虎出错。但P模型在多主体、多镜头表现上足够让人惊异。
比如,这张经典的梗图,豆包天生的视频动作幅度大,对付提示词的理解也更到位。更关键的是,三个人物之间的互动自然,有不同的人物动作表现。
提示词:男子看着走过去的红衣美女,吹起了口哨,站在他一边的女士惊异地看着他,接着甩开男子的手离开了。
比较之下,可灵的图生视频对付多主体掌握就略逊一筹。镜头一转,蓝衣女主秒变“恋爱脑”,抱着男主不放。这么看来,要论脑洞,还是得选可灵。
可灵AI 1.5天生
还有任何一款AI视频工具都逃不过的“威尔史密斯吃面”:
提示词:一个男人正在吃意大利面,一边拿起羽觞喝起了红酒
图片+提示词也能轻松应对,不仅可以担保人物的同等性,包括嘴部也没有涌现明显瑕疵,还能遵照提示词中的“喝起了红酒”。
镜头无缝切换,实现逼真视觉效果
镜头运动:
提示词:第一人称视角,女子开着车在夜晚的街道行驶,镜头切到车窗外,窗外有烟花绽放。
可以看到,根据不同的镜头提示词,豆包视频天生模型可以让镜头跟随,实现镜头的缩放、变焦等等。
提示词:由巨大绿树组成的神秘森林,树枝像无尽的藤蔓向四周蔓延,森林中的光芒从缝隙中洒落。
此外,豆包视频模型在处理写实类风景方面表现出色,天生画面更倾向真实天下场景。同样的提示词让最新的可灵1.5天生的效果更梦幻一点:
可灵AI 1.5天生
这次更新,豆包视频天生模型能够实现多镜头切换,并保持主体、风格、氛围同等性。
提示词:近间隔拍摄一位女歌手举起手机与粉丝们合照,镜头拉远,有一群拍照师对着女歌手拍照。
在提示词中我们哀求进行镜头切换,从特写镜头转向到全景镜头。从视频天生的效果来看,除了末了一帧动作奇怪之外,Taylor人物的脸部没有涌现明显的技能瑕疵,全体视频画面流畅。
提示词:女人向右移动,男人站在原地打电话,镜头拉远露出繁忙的街道。
综合表现来看,豆包在镜头运动、人物面部掌握等方面都有一定上风,可以说,天生视频的“AI味”越来越少了。
风格化:
上周我们实测的通义万相在天生古诗词方面的表现可谓惊艳,来看看豆包大模型表现如何。
提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。
比通义万相的动画风格,豆包天生的视频对“枯藤老树”“小桥流水”“夕阳”等元素进行了想象重现,画面在光影和视觉效果上相称惊喜。
值得一提的是,豆包天生视频后,我们可以选择是否进行“AI配乐”,为视频加入声音效果,进一步简化视频制作流程。
写在末了
间隔OpenAI官宣Sora仅过去了半年,海内头部互联网大厂和AI视频创企纷纭发力,试图争夺中国“Sora”的头把交椅。
3月,AI创企爱诗科技发布视频天生大模型PixVerse,目前已历经多次更新迭代。
6月,快手发布视频天生大模型“可灵”,对标Sora,支持通过文生视频、图生视频、视频续写功能,可天生最长2分钟、30fps的1080p高分辨率视频。
7月,生数科技旗下的视频模型Vidu面向"大众年夜众开放,能天生15s的视频,且大大缩短了天生所须要的韶光。同期,爱诗科技发布视频天生大模型PixVerse V2,环球同步开放。
8月,大模型厂商智谱AI发布AI视频工具“清影”,并将模型“CogVideoX”开源。
9月19日,在云栖大会上,阿里云CTO周靖人宣告通义万相全面升级,并发布全新视频天生模型,可天生影视级高清视频,运用于影视创作、动画设计、广告设计等领域。
9月23日,美图公司宣告旗下美图奇想大模型(MiracleVision)视频天生能力、天生效率以及模型性能全面升级。
豆包视频天生模型发布后,有人称“字节闭幕了比赛”,终极结论如何,相信很快会得到验证。