4月27日,在2024中关村落论坛年会未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司正式发布了文生视比年夜模型——Vidu。
在会议上,清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu天生的视频,单段视频最长可达16秒,并且在全体视频呈现上,Vidu已经不输Sora。
年初,OpenAI发布的Sora惊艳了天下,也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布,则是海内首个具备“永劫长、高同等性、高动态性”等特点的视比年夜模型。
国产Sora
据朱军先容,目前海内已有视比年夜模型的天生视比年夜多在4秒旁边,而Vidu可以一次性天生16秒的视频。除了在时长上的打破以外,Vidu在视频效果方面也得到显著提升。
比如Vidu能够天生繁芜的动态镜头,不再局限于大略的推、拉、移等固定镜头,而是能够在一段画面里实现远景、近景、中景、特写平分歧镜头的切换,包括直接天生长镜头、追焦、转场等效果。
其余,Vidu既能够仿照真实物理天下,也能够天生真实天下不存在的虚构画面。个中对付真实天下,Vidu能天生细节繁芜且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。
同时,作为国产大模型,Vidu更理解中国元素,能够天生熊猫、龙等特有的中国元素。
朱军表示,Vidu与Sora一样,采取的都是“一步到位”的天生办法,即视频片段从头到尾是连续天生的,在底层算法上则是基于单一模型完备端到端天生,不涉及中间的插帧和其他多步骤的处理。
早于DiT架构提出U-ViT
据朱军先容,Vidu的快速打破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技能U-ViT架构由团队于2022年9月提出,早于Sora采取的DiT架构,是环球首个Diffusion与Transformer领悟的架构。
须要指出的是,外界熟习的Sora、Stable Diffusion 3等模型,采取的都是Diffusion Transformer架构DiT。而所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer更换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然上风进行领悟。
DiT架构由伯克利团队于2022年12月揭橥。而生数科技在其之条件出的基于Transformer的网络架构U-ViT,两项事情在架构思路与实验路径上完备同等,均是将Transformer与扩散模型领悟。
2023年3月,Vidu团队开源了环球首个基于U-ViT领悟架构的多模态扩散模型UniDiffuser,并率先完成了U-ViT架构的大规模可扩展性验证。
正是有了这些长期的技能积累,Vidu团队才能够在Sora发布仅两个月后,就快速推出了自研视比年夜模型。
朱军表示,从图文任务的统一到领悟视频能力,作为通用视觉模型,Vidu能够支持天生更加多样化、更永劫长的视频内容,同时面向未来,灵巧架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。
生数科技是谁?
作为Vidu的研发方之一,外界对付生数科技可能相对陌生。
生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。
去年,生数科技完成多笔融资,投资方包括蚂蚁集团、锦秋基金等。今年3月,生数科技完成新一轮数亿元融资,由启明创投领投,达泰成本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。
目前,生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会揭橥干系论文近30篇。在扩散模型方面,该团队的成果已涉及骨干网络、高速推理算法、大规模演习等全栈技能方向。
其余虽然成立韶光不长,但生数科技已经开始推进大模型的商业化落地。一方面因此API的形式向B端机构直接供应模型能力,另一方面打造垂类运用产品,按照订阅等形式收费。
截至目前,生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展互助,同时,生数科技也于去年上线两款工具产品,分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。
更多内容请下载21财经APP