但更多的网友则是期待字节的视频天生模型,由于早在去年11月,字节的项目Make Pixels Dance就展示字节具备理解决长AI视频中角色同等性难以保持的问题。以是我也看到很多外网网友的另一个问题“Where is ByteDacne?”。
而就在9.24火山引擎AI创新巡展深圳站上,火山引擎一口气发布了个视频天生模型PixelDance和Seaweed模型。兄弟们感想熏染下这个丝滑的运镜和转场,10秒钟韶光从跟随一个女人走进人群,然后女人转身镜头随着右旋然后改变焦距变到另一个场景。这种效果相较于现在的AI只能说是断层式的领先。
外网看了视频的人,直接确认了,很恐怖,但我没有中国手机号。(PS:是不是可以考虑模拟一下那些搞Gpt的人,反向输出一波?)当然这次咱们也很幸运拿到了测试资格,测试前我先总结了所有AI视频产品都会有的问题:
其他AI视频天生效果展示
1、语义理解差。不管提示词写的多负责,产品会抽风乱天生,这问题表示在 人物动作、画面风格、运镜、景象、各种补充细节上。而且一些国外产品由于语种的问题,就算我们用翻译软件也很难达到原生语种的水平。比如上面这个想让镜头上抬,人物举头看向天空,AI直接给来一手人头气球。提示词写的像情书一样深情,寄给AI之后换来的却是一坨大的。
其他AI视频天生效果展示
2、同等性差,用AI进行影视创作的小伙伴都会面临这个问题,一个6秒的视频如果涉及到镜头切换或者高速运动,那么画面内容必定变形乃至涌现国足行为,要把球踢出去镜头一转球像磁铁一样吸到脚上要进自家球门。
以是这次豆包·视频天生模型的测试我会重点关照这些问题,能按照需求天生视频是AI视频能做事专业影视创作者的根本条件。同时拉上可灵、Minimax、老玩家Runway以及LUMA,看看是先发者保持上风还是后来者登基为王。
空间理解测试
提示词:胶片质感,下雨天,四周堆满垃圾的小巷里,镜头拍摄一只橘猫转身走向巷子深处,雨水倒映它的身体。
英文提示词:Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.
上面提示词虽短。但测试点却有4个:1、画面是胶片风格;2、场景是堆满垃圾的小巷。3、橘猫转身走向巷子须要AI反推出猫一开始是面对镜头的然后转身走;4、雨水要能倒映猫和场景。
首先是豆包·视频天生模型的作品。我只能说完成度太高了,我只天生了一遍,就以为OK了。有种当年Sora刚涌现的震荡感。猫在水里的倒影、脚步踩过水面泛起的荡漾....乃至走到尽头垃圾堆有起伏,猫脚落地点都抬高了,解释AI在天生的时候乃至把稳到了地形!
!
!
比拟一下这是用可灵1.5高画质模式天生的,可灵的动态景象也很厉害,但问题就出在这个胶片质感用力过猛,猫都变成饱和度战士了。而且猫在加速跑时尾巴涌现一下变长一下变短的情形。
再看一下Minimax的海螺AI,我以为海螺的画面不雅观感比可灵好很多,胶片质感也到位。但是很可惜,没有理解到猫转身这个动作。
接下来看下国际服选手LUMA和Runway的表现。
LUMA怎么说呢,这种画面放到网上,大家可能会说很惊艳。但如果用来影视创作那绝对是不合格的。场景没按哀求天生、猫也没转身走到巷子深处,猫脸乃至还是糊的.......只能说,拉得很彻底......
Runway也拉了,这雨下得怕是胶水,猫脚完备动不了,乃至猫还学会了中国的川剧变脸!
在这次空间理解测试中,豆包·视频天生模型是毋庸置疑的第一。不管是隐蔽测试点猫面向镜头然后转身,还是水面的物理反射、按照提示词对场景的搭建能力都属于断层式第一。可灵猫尾巴变形了,但其他哀求也是完美实行能排第二。第三名是Minimax,场景还原到位,但猫这个演员不怎么合营演出,天生了3次都不合营。至于LUMA和Runway,不知道是不是演习了什么诡异素材,猫的脸都很抽象。
殊效电影测试
提示词:深夜的巷子漂浮着浓烟,地面污水横流,许多老鼠走来走去,镜头逐渐推进到一个雪人戴着礼帽坐在垃圾桶上仰头喝啤酒,随后扔掉啤酒瓶。镜头特写啤酒瓶在地面上滚动,老鼠向四周兔脱。
英文提示词:There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.
测试点:繁芜的场景,两次镜头变革高度磨练场景同等性,现实和3D动画的画风领悟(这种一样平常在影视中要做殊效,很烧钱。)
这次我不打算先放豆包了,太陵暴人,咱先看看其他几家表现。
首先是可灵,这里我用的是1.5的模型,费钱了便是不一样,画质肉眼可见的高清。先说完成项:场景完成度到位,浓雾、水、老鼠、镜头推进。加分项:画质不错。扣分项:人物没有坐在垃圾桶上,没有仰头饮酒、扔酒瓶的操作,镜头没特写扔酒瓶。
接下来是海螺AI,海螺这个镜头我挺喜好的,先从老鼠和浓雾开始有大片的觉得。结果他镜头是后移不是推进。这雪人估计造他的女娲不算存心。而且也没有仰头饮酒,虽然扔了酒瓶但没有实行酒瓶在地面滚动吓跑老鼠的镜头特写。
好了看完海内组,再看看国际组的表现,Runway表现还是持续拉胯,觉得文生视频这块算是没救了。老鼠没老鼠,水也没有水,哀求让雪人穿衣服也只戴了个帽子,更主要的是镜头完备没动.......
LUMA这波的表现画面中只有镜头和烟雾在动,老鼠和雪人觉得只是手办摆件。在影视创作中又是一条废片。
末了是豆包·视频天生模型,这画面第一眼不雅观感便是通透而且所有哀求都做到了,浓雾、老鼠、雪人的动作和服装乃至是镜头推进的哀求也完成了。最主要的是,兄弟真来了个镜头特写切换到酒瓶丢到地面上。这个片段我真的反复看了很多遍,便是雪人随手一扔然后画面丝滑切换到酒瓶落地。酒瓶跟手里那个千篇一律,地面场景跟开头场景千篇一律,丢到地上还高清化了。而且地上那些雪我估计是雪人老哥留下的,颗粒分明!
!
好了这一场评分我只能说.....豆包·视频天生模型再次断层式第一,我现在是真没心思写文章。以前被其他AI封印的灵感都爆发了,只想赶紧写完文章然后再去搞一波。当然本场排名依然是中国队领先。继可灵炸场之后,字节干了件更大的事——掀桌!
!
!
上面雪人喝啤酒动画意味着豆包·视频天生模型在动画教诲也能大展拳脚。于是我又天生了一个毛毡动画风格的短片。提示词:夜晚森林中的篝火派对,穿着超人服装的小猪在打碟,其他小动物随着节奏一起摇摆。
我创造画面中统共14只动物,居然都是同一韶光做动作,他们是真的有自己的节奏!
!
!
也便是关于AI视频进行多角色动作掌握的难题,已经被豆包·视频天生模型完美办理
我也在官方的demo中看到了这种多只绵羊一起跑的画面,也便是说如果有小伙伴要做古装战役片,往后天生什么千军万马过大江的画面,豆包·视频天生模型也完备能胜任!
而刚刚扔酒瓶后切换镜头后的同等性,我相信所有影视爱好者都会猖獗。由于像这种从身上掏钥匙开车的连续画面以往AI想都不用想,最多便是分成几个视频天生。而现在,豆包表示不好意思,一镜到底!
对决Sora
说了这么多,还是要跟Sora对线一波。
这个气球男孩的短片大家肯定都很熟习,是影视团队shykids借助Sora耗时2周制作的。但团队后来爆料视频终极成品跟原定的剧本完备不符合。问题可以总结为:角色同等性差、语义理解差。核心缘故原由是由于Sora只支持文生视频。
比如在广场奔跑这个镜头,笔墨哀求的是,黄色气球人穿着正装从广场左边跑向右边,天生的却是,头顶纸袋的人追赤色气球。或者一个通灵的衣服拉着气球裸奔。跟哀求的运动方向和画面内容完备不符。
再比如人脸和玩滑板画面,AI会在气球上印人脸,乃至直接让人顶着气球玩。而且AI对很多东西都有刻板印象,比如气球一定要被线拉着导致他们后期要用AE处理。
并且天生素材很花韶光,3~20秒的画面常日要10到20分钟来天生,团队至少天生了300多个片段,花上50多小时,再用Topaz工具提升画面分辨率。终极得到的素材总时长约1.2小时,却只能做出80秒的短片。另一个问题便是Sora很喜好天生慢动作视频,很多视频看起来都是0.5倍速播放。
而Sora表现出来的问题,像广场中气球人不理解空间位置乱跑。豆包·视频天生模型已经办理,像这只小猫咪,叫他转身走,人家就转身走。
角色特色的问题,人家乃至能在10秒韶光内360度无去世角展示主角外不雅观,同时还完成了场景的切换和镜头的变焦。这能力在目前我看到的Sora天生的影片中还没见过!
总结
实在字节这次表现可以说是在我猜想之中。由于从Sora还没发布之前,字节就一贯加码AI视频技能领域的研究。文章开头我也讲了5月份的时候,字节的视频天生模型研究就已经征服了外网网友。
至于现在各大平台最近才上线的运动画笔功能,实在字节2月份的时候就已经研究出来了,项目名为Boximator。通过框选目标AI会智能识别不同主题,乃至让狗和球产生逼真互动。
再往回追溯你会创造,去年11月份,人家的“Make Pixels Dance”项目就已经能天生3分钟时长的北极熊冒险视频。以是字节这一波登场看似惊艳实则合理。反不雅观Sora的现状我也不好评价,给我最大的觉得便是一把火点燃了AI视频,然后由于产品没开拓完全把自己憋去世了......
末了说一下,豆包·视频天生模型也是 DiT 架构,跟Sora是同类型的技能。实在说开了便是扩散模型和Transformer相结合,在2023年的打算机视觉会议上因“短缺创新性”而遭到谢绝。由于刚出来的时候很多人不看好用这个架构做视频天生模型,入门门槛太高了。
为什么说 DiT 架构入门门槛高?由于首先须要厂商有自己的措辞大模型,然后借助大模型的能力来赞助辅导扩散模型天生视频。讲人话便是,你在用豆包·视频天生模型,实在豆包措辞大模型也参与了事情,它是一个翻译官的角色卖力把你的内容优化成视频天生模型更随意马虎理解的话。这样子天生的画面才更符合用户提示词的哀求。
这也是为什么后来海内的几个AI视频厂商在语义理解方面压着国外打,乃至于Runway gen3直接放弃文生视频只做图生视频了,由于他们没怎么做大模型干系研发。
当然,像豆包·视频天生模型这么离谱的能力,其深层次缘故原由还是在于团队研发新的扩散模型演习方法,担保同等性多镜头天生的稳定性,同时深度优化Transformer构造提升视频天生的泛化能力。大略说便是所有的技能都是定制化的。才有了现在10秒讲一个完全故事,分镜多、可控主题多、同等性还稳定的超能力。
字节的这波爆发并不虞味彻底压垮Sora,由于OpenAI的大模型底子还在,Dall·E 的底子也还在,不过假如OpenAI的产品连续难产,那Sora要稳坐AI视频这个王位恐怕弗成。