比如来一张马斯克的照片。
你可以让他穿梭在宴会厅;
让他行走在巴黎;
也可以让他和别人相拥在一起。
不但是真人照片,卡通人物也同样适用。
来一张Q弹的猫头鹰图片,可以让它编出各种剧情。
AI视频模型长期受困于帧与帧之间的连贯性问题,在实际创作中,角色、景致、物品的随机天生,给影视、营销等领域的运用带来巨大难题。由于大模型的不可控,不少公司智能通过建资料库+人工+反复天生来办理,让人工智能难以摆脱“人工智障”的帽子。
现在,这一难题被生数科技率先办理。
生数科技成立于2023年 3月,创始人兼CEO唐家渝是清华大学自然措辞处理实验室硕士,此前曾任瑞莱聪慧副总裁、腾讯优图实验室高等产品经理等。2024年4月,生数科技联合清华大学发布了中国首个原创全自研,永劫长、高同等性、高动态性的视比年夜模型Vidu,被称为“中国版Sora”。7月尾已正式上线,全面开放适用。
仅过去一个多月的韶光,Vidu又发布“主体参照”(Subject Consistency)功能,能够实现对任意主体的同等性天生,让视频天生更加稳定、可控,目前已在官网免费开放。
经由不少创作者实践,有了这一功能,仅需三张定妆照,就能完成短片创作;基于一张商品图,六个小时完成一支广告片。
生数科技联合创始人兼CEO唐家渝表示, \"大众主体参照\"大众这一全新功能的上线,代表着AI完全叙事的开端,AI视频创作也将迈向更高效、更灵巧的阶段。无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完全的叙事体系是“主体同等、场景同等、风格同等”等要素的有机结合。
一、改变视频创作的“游戏规则”
大模型的可控性问题一贯是运用落地中的头号难题。
在实际的视频创作中,视频内容每每环绕特定的工具展开,可以是角色或特定物体,这些工具在视频中的形象须要保持连续同等。然而现有的视频模型每每难以实现这一点,常常是主体在天生过程中随意马虎崩坏。
尤其在涉及繁芜动作和交互的情形下,保持主体的同等性更是一项寻衅。
此外,视频模型的输出结果具有较大的随机性,对付镜头利用、光影效果等细节的掌握也不足风雅。
以是现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面实现了一定程度的打破,但可控性的不敷限定了它们在创作连贯、完全视频内容方面的运用。目前,大多数的AI视频内容还是基于独立视频素材的拼接,情节的连贯性不敷。
为理解决这一问题,业界曾考试测验采取“先AI生图、再图生视频”的方法,通过AI绘图工具如Midjourney天生分镜头画面,先在图片层面保持主体同等,然后再将这些画面转化为视频片段并进行剪辑合成。
但问题在于,AI绘图的同等性并不完美,每每须要通过反复修正和局部重绘来办理。更主要的是,实际的视频制作过程中涉及浩瀚场景和镜头,这种方法在处理多组分镜头的场景时,生图的事情量巨大,能占到全流程的一半以上,且终极的视频内容也会由于过分依赖分镜头画面而缺少创造性和灵巧性。
生数科技提出“主体参照”功能正在彻底改变了这一局势。
所谓“主体参照”,便是许可用户上传任意主体的一张图片,Vidu就能够锁定该主体的形象,通过描述词任意切换场景,输出主体同等的视频。
这个功能不局限于单一工具,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频天生中的同等性和可控性,这是视频天生领域的一大创新。Vidu也是首个支持该能力的视比年夜模型。
二、Vidu破局
我们来看看“主体参照”的效果。
输入一张林黛玉的角色照,你可以脑洞大开,让林妹妹干各种天马行空的事情。
你可以让她坐在咖啡馆闲聊;
可以让她站上大学讲台;
也可以让她骑着机车一起狂飙。
除了真实人物,动物和卡通图片也 可以实现其在不同环境下、大幅运动状态中细节特色保持同等。
在商品营销中,商品的外不雅观和细节在不同场景中保持高度同等。
比如基于一张沙发的商品图,天生相应的利用场景。
在视比年夜模型领域,只管已有如“图生视频”和“角色同等性”等能力,但Vidu的“主体参照”功能在同等性方面实现了质的飞跃。详细比拟看:
图生视频(Image to Video):基于首帧画面的连续天生,无法直接输出目标场景,限定了视频内容的多样性和场景的自由度;
角色同等性(Character to Video):只限于人物面部特色的同等性,难以担保人物整体形象的稳定;
主体参照(Subject Consistency):不局限于人物,面向任意主体,其次在人物主体下,可选择保持面部同等,也可选择保持人物整体形象的高度同等,通过输入笔墨描述灵巧输出目标场景;
值得把稳的是,Vidu摒弃了传统的分镜头画面天生步骤,通过“上传主体图+输入场景描述词”的办法,直接天生视频素材。
这一创新方法不仅大幅减少了事情量,还冲破了分镜头画面对视频内容的限定,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵巧多变的视频内容。这一打破将为视频创作带来了前所未有的自由度和创新空间。
三、加速故事类、广告类视频创作
“主体参照”功能通过锁定角色或物体的形象,一方面让故事情节更具连贯性,另一方面让创作者能够更自由地探索故事的深度和广度。这一功能也确实得到了浩瀚一线创作者的“高度评价”。
青年导演李宁正在打造中国首部AIGC院线电影《玄宇》,他利用Vidu预创作了一段男主的视频片段,个中所有人物画面仅通过男主近景、中景、远景三张定妆照天生。
李宁在创作分享中提到,之前的AI电影创作过程,采取传统的文生图、图生视频流程,在分镜的连贯上很难掌控,人物的整体造型很难保持同等,前期须要耗费大量的精力去调试图片,同时画面还随意马虎产生镜头光影失落控、图像模糊乃至变形等一系列问题,且随着视频篇幅的增加,这些问题被进一步放大。
“主体参照”功能在商业广告片方向展现了强大的潜力。
广告片的一大关键在于要担保多个镜头、不同场景下品牌物形象的同等性。
Vidu“主体参照”功能能够很好的实现,例如,不才面的跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的天生,无论是不同角度、背景,还是动态表现,跑步鞋的形象在全体视频中都保持了高度同等。
生数科技官方先容到,该视频仅一位职员花费6个小时完成,包含前期策划、素材天生,后期剪辑,个中30段AI视频素材的天生仅花费3个小时,全体流程仅参照一张商品图。传统广告片制作高度依赖线下实拍和后期制作,韶光周期长、本钱投入大,但现在通过Vidu能够极大地节省广告制作的本钱,全体产出流程更加高效,品牌方对新素材的开拓也能更加灵巧。
生数科技也推出了互助伙伴操持,约请广告、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作模式。
值得把稳的是,生数科技强调,“主体参照”是AI完全叙事的开端。视频模型要达到叙事的完全性,就必须在这些核心元素上实现全面可控。Vidu的“主体参照” 在仅仅是开始,未来,Vidu将连续探索如何精确掌握多主体交互、风格统一、多变场景稳定切换等繁芜元素,以知足更高层次的叙事需求。
从更长远的视角来看,一旦实现了全面的可控性,视频创作行业将经历一场颠覆性的变革。届时,角色、场景、风格,乃至镜头利用、光影效果等元素,都将转化为可灵巧调度的参数。用户只须要动动手指、调调参,就可以完成一部影像作品的创作,而每一个作品的背后,也将是用户基于AI构建出的独特天下不雅观和自我表达。