编辑|李然
由于有了AI,Meta的元宇宙梦不去世!
Meta 3D Gen
Meta推出了一种名为Meta 3D Gen的端到端3D素材天生模型,可以在不到一分钟的韶光内根据文本描述创建高质量的3D素材。
图源:X(@AIatMeta)
Meta 3D Gen结合了Meta的两个现有模型:用于天生 3D 网格素材的AssetGen和用于风雅纹理化的 TextureGen。 Meta 表示,这种集成可以为沉浸式内容带来更高质量的3D天生。
Meta 3D Gen
据Meta称,3D Gen在速率和质量方面都超过了领先的行业办理方案。技能报告中称,专业3D艺术家在大多数种别中对该工具的评分都好于竞争对手,特殊是对付繁芜的要求。Meta表示,它的速率是同类系统的3到60倍。
Meta 3D Gen
VR行业发展速率不及预期,个中一个最主要的缘故原由便是创建内容的本钱过高,很难吸引内容创作者为元宇宙创建素材。而且人工创建的VR 3D素材质量由于硬件性能等各种成分的限定,比较平面素材过于“简陋”,使得用户的沉浸感不敷。
和现有的业界产品(Meshy、Tripo等)比较,Meta的Gen 3D天生的效果确实要好上不少,而且用时还是最少的。图源:Meta论文
而如果用户能够非常方便且高效地创造3D素材,至少将能大大改进VR内容缺少的问题。如果素材的质量再能得到进一步的提高,天生的虚拟现实天下真的能够达到以假乱真的地步。在Gen AI的加持之下,大概VR中的虚拟天下未来要成为第一个AI天生比例大于人工天生的领域。
Meta 3D Gen
大概小扎的VR梦,在AI的加持下,就真的要成了。
图源:X(@KaladinFree)
网友惊呼:这个技能对付VR以及Meta自身的发展策略来说太主要了。Meta可能是除了英伟达以外AI发展最大的赢家!
图源:X(@sonieashan)
从文本到3D,是若何炼成的?
从文本提示词天生3D素材的模型,在 3D 图形、动画、游戏和 AR/VR 等领域都具有巨大的发挥潜力。
虽然在文生图和文生视频模型领域,已经取得了天下瞩目的进展(例如MidJourney、Sora、Runway等等),但在3D 天生模型领域,以往的模型质量仍旧不敷以用于专业用场。
以往3D天生模型有很多毛病,比如天生速率慢,天生的3D网格和纹理中存在伪影。此外,以往的很多模型仍旧将物体外不雅观渲染为固有的颜色,忽略了 3D 物体的颜色该当随着环境光的变革而变革。特殊是对付反光材料,当把它们放置在新环境中时,它们会显得扞格难入。
而Meta的3D Gen 能在不到 30 秒内天生3D素材,比较于以往具有同等速率的模型,在保真度、天生的 3D 网格质量、特殊是材料的质量和掌握等方面,表现更好。
Meta 3D Gen
3D Gen是如何做到如此维妙维肖的3D素材天生的呢?
3D Gen 采取了两阶段的方法,结合了两个组件,第一阶段利用AssetGen组件,第二阶段利用TextureGen组件。
第一阶段:从文本到图像
这一阶段的目标是,从文本天生有着色和阴影的图像,从四个标准视角,天生这些角度的4张视图。为此,Meta团队利用了一个经由预演习的文生图的扩散模型,该模型在数十亿张带标签的图像上进行演习。
第一阶段的推理韶光约为 30 秒。
左为其他模型效果,右为3D Gen模型效果。图源:Meta论文
和其他3D素材天生模型比较,Meta的AssetGen的细节,光照的效果都明显要丰富和真实得多。
左为其他模型效果,右为3D Gen模型效果。图源:Meta论文
值得一提的是,Meta团队利用的这个文生图模型,其架构与海内智源研究院的「悟道3.0」Emu开源多模态模型类似。
第二阶段:从图像到3D
根据第一阶段天生的 3D 素材和最初的文本提示词,对第一阶段的素材进行纹理细化或者重新着色,来天生更高质量的纹理和 PBR(physically based rendering,基于物理的渲染)图。这一阶段利用了Meta团队的从文本到纹理( text-to-texture)的天生模型 3D TextureGen。
第二阶段推理韶光约为 20 秒。
比较业内其他技能,Meta的TextureGen天生的纹理质量非常高。图源:Meta论文
通过构建 AssetGen 和 TextureGen两个组件,3D Gen模型将3D物体的三种高度互补的表现办法结合起来:视觉空间(图像)、体积空间(3D 形状和外不雅观)以及 UV 空间(纹理与质地)。
与许多最前辈的办理方案不同,AssetGen 和 TextureGen 都是前馈天生器,因此在支配后既快速又高效。
下图显示了 3D Gen 从第一阶段到第二阶段处理后的效果比拟。第二阶段后常日具有更高的视觉美学,看起来更逼真,并且在高频颜色区有更多细节。
△第一阶段效果。图源:Meta论文
△第二阶段处理后的效果。图源:Meta论文
Meta团队将3D Gen与其他文生3D模型同行们(Meshy v3、Tripo等)进行了比较。Meta表示,竞争对手们在大略物体上做得很好,但更繁芜的物体组合和场景就有寻衅了,而且展现高频区细节与暴露视觉伪影之间总是难以平衡。
3D Gen还可以在同一形状的物体上,进行不同的着色。在第一阶段天生的 3D 网格,然后通报到第二阶段,只要利用不同的提示词,就能创建具有相同形状但外不雅观不同的新素材。除了实现语义编辑并实行全局和局部修正之外,3D Gen 还可以成功地模拟不同的材料和艺术风格。
在同一形状的物体上,进行不同的着色
除了对物体本身进行不同着色,3D Gen还能调度整体场景的风格。通过对物体层面的提示词进行加强,加上风格信息,就能将全体场景的风格进行调度,效果很折衷。
不才图中,3D Gen就对同样的物体,进行不同风格的场景渲染,有针织玩偶、胆怯电影、水来世界、像素艺术、圣诞节等风格。
调度整体场景的风格
90后研发团队
Gen 3D的研发团队也非常年轻,基本都是由90后组成。
Raphael Bensadoun
Raphael Bensadoun
他毕业于特拉维夫大学,之后在两家小公司有过期光不长的事情经历,之后来到Meta成为了AI研究职员。
Raphael Bensadoun
Tom Monnier
Tom Monnier
他毕业于法国最好的工程师大学,然后在Tinyclues和Adobe事情了一段韶光之后,进入Meta担当研究科学家。
Tom Monnier
Filippos Kokkinos
Filippos Kokkinos
他是Meta GenAI的研究科学家,此前曾在Facebook AI Research(FAIR)事情。他的研究以天生性深度学习为中央,特殊关注视频和从文本、图像和视频天生3D的技能。在加入Meta之前他曾经在华为等公司演习过。
他博士毕业于伦敦大学学院。
Filippos Kokkinos
Meta的3D Gen的潜在运用是巨大的。游戏开拓职员可以用3D Gen快速制作游戏环境和角色原型,建筑可视化公司则只须要文本描述,就能天生建筑物整体和内部的详细 3D 模型,简化设计流程。在VR/MR领域,3D Gen 可以快速创建沉浸式环境和物体,加速元宇宙运用程序的开拓。AI的未来将会进一步加速。