个中最吸引我眼球,当属"豆包"天生视频模型,这个模型一经亮相,就给人一种"王者降临"觉得,之前迟迟不肯露面字节,这次一脱手便是王炸级别硬菜,其实让人惊喜
先来看看官方演示视频吧,只需一张图片加上大略提示词,就能天生如此逼真视频,切实其实是邪术般体验!视频中人物表情细腻变革、洒脱发丝、马匹奔驰时毛发飞舞,还有骑手随马儿起伏自然动作,每一个细节都精雕细琢,
再看那个骑火箭冲向天下最高城堡视频,更是让人叹为不雅观止,镜头流畅移动、分镜奥妙切换,再加上始终如一画风,将全体场景塑造得维妙维肖,尤其是那个闭眼赴去世特写镜头,切实其实把紧张感拉满,画面感十足
作为一个理性不雅观察者,我们也不能被这些花哨演示视频完备迷住眼,毕竟AI界,有时候官方宣扬和实际效果之间差距,就像方便面包装和实物一样,可能会有寰宇之别,,要真正解这个模型实力,还得亲自上手试试才行
我们联系到字节朋友,得到这个名为PixelDance(像素跳动)模型内测资格,现,让我们一起来看看这个模型到底有多厉害吧!
我们拿出一张金毛犬照片做测试,提示词是:"狗狗站起,叼起身边娃娃离开画面,"乍一看,这个哀求彷佛不难,但仔细想想,这实在是个不小寻衅,原图中,金毛脸被娃娃挡住一部分,要让它站起来并叼走娃娃,对模型同等性哀求相称高,之前测试其他模型时,类似场景每每会2秒内就让狗狗脸和身材变得面孔全非
PixelDance表现却出乎猜想好,天生视频中,险些看不到画面抖动、掉帧或者闪烁变形情形,狗狗站起动作行云流水,自然流畅,仔细不雅观察,你会创造当狗狗拽过兔子玩偶时,玩偶耳朵会轻微抖动;当狗狗脚踩垫子上时,垫子还会涌现凹陷,这种细节把控,不仅表示模型同等性,更展示它对细节极致追求,如果不是狗狗毛发纹理偶尔显得有些假,这段视频绝对堪称完美
我们来寻衅一下光影效果,这可是不少视频天生模型噩梦,让我们看看PixelDance能不能过关,我们先用豆包文生图功能天生一张赛博朋克风格骑行照片,然后将其输入PixelDance模型,提示词是:"摩托车飞速行驶道路上,街景迅速退却撤退,"
天生视频中,街景变革如行云流水,光芒明暗变革自然和谐,没有丝毫违和感,特殊值得一提是,大楼灯光和地面上倒影完美对应,展现模型对场景整体把控高超水平,唯一有点小瑕疵地方是对向来车处理稍显生硬,但这并不影响整体精良表现
为进一步测试人物动作天生能力,我们选一张同事吃东西照片,提示词是:"正对镜头男人张嘴吃下筷子上食品,"结果再次令人惊叹,PixelDance不负众望,完美还原拿筷子动作,食品真被吃进嘴里,面部表情随咀嚼自然变革,没有涌现任何变形,更妙是,纵然提示词中没有提到背景中其他人,模型也让他们做出符合日常生活自然动作,没有任何明显马脚,唯一美中不敷是,咀嚼动作稍显夸年夜,有点用力过猛
我们对PixelDance实力已经有相称清晰认识,但为更全面地评估它能力,我们决定再多测试几个场景
我们拿出一张公司附近拍摄晚霞照片,想要测试一下模型对奇幻场景处理能力,提示词是:"远处天空,飞来一条玄色龙,间隔镜头越来越近,"天生视频中,天空、屋子、黑龙等元素基本完好,镜头还会随着龙靠近缓缓仰拍,展现不错镜头措辞,但不得不说,这可能是本次测试中相对较弱一个案例,龙质感和翱翔动作显得有些假,这可能与模型演习素材局限性有关,其余,原图左下角桥边栅栏视频中涌现轻微变形,可能是原图那部分太暗,模型没能准确识别
我们还测试一个我们认为难度极高场景,这不仅磨练模型同等性,还要看它对物理天下规则理解,我们选择一张同事们放工饮酒时合影,提示词是:"大家碰杯后各自拿走自己酒一饮而尽,"
天生视频再次让人惊艳,碰杯时酒液晃动,手部动作引起液体倾斜,乃至杯子反光,都处理得相称到位,人物手臂屈伸、枢纽关头活动也符合人体生理构造,当然,也有一些小瑕疵,比如桌子下杯垫和零食有点"鬼畜",右侧一位同事手中酒彷佛误入另一位同事嘴里,但瑕不掩瑜,整体效果依然令人惊叹
虽然PixelDance还称不上是颠覆性打破,但与市情上其他效果不太成熟模型比较,它画面稳定性和同等性方面确实技高一筹,据字节事情职员透露,为实现这种靠近专业影视水准光影和色彩效果,他们还借鉴剪映等专业剪辑调色工具履历
技能进步总是伴随着寻衅和争议,AI天生技能快速发展,不可避免地会引发一些伦理和版权方面谈论,如何推动技能创新同时,确保AI利用不会陵犯他人权柄,如何平衡技能发展和社会任务,这些都是我们须要负责思考问题