席卷AI天下的下一个打破在哪里?
继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像天生模型「POINT-E」,它可通过文本直接天生3D模型。
论文链接:https://arxiv.org/pdf/2212.08751.pdf
比较竞争对手们(如谷歌的DreamFusion)须要几个GPU事情数个小时,POINT-E只需单个GPU便可在几分钟内天生3D图像。
经
地址:https://huggingface.co/spaces/openai/point-e
网友也开始考试测验不同的prompt输入。
但输出的结果并不都令人满意。
还有网友表示,POINT-E或容许以实现Meta的元宇宙愿景?
须要把稳的是,POINT-E是通过点云(point cloud),也便是空间中点的数据集来天生3D图像。
大略来说,便是通过三维模型进行数据采集获取空间中代表3D形状的点云数据。
从打算的角度来看,点云更随意马虎合成,但它们无法捕获工具的细腻形状或纹理,这是目前Point-E的一个短板。
为办理这个限定,Point-E团队演习了一个额外的人工智能系统来将Point-E 的点云转换为网格。
将Point-E点云转换为网格
在独立的网格天生模型之外,Point-E 由两个模型组成:
一个文本图像转化模型(text-to-image model)和图像转化3D模型(image-to-3D model)。
文本图像转化模型类似于OpenAI的DALL-E 2和Stable Diffusion,在标记图像上进行演习以理解单词和视觉观点间的关联。
然后,将一组与3D工具配对图像输入3D转化模型,以便模型学会在两者之间有效转换。
当输入一个prompt时,文本图像转化模型会天生一个合成渲染工具,该工具被馈送到图像转化3D模型,然后天生点云。
OpenAI研究职员表示,Point-E经历了数百万3D工具和干系元数据的数据集的演习。
但它并不完美,Point-E 的图像到 3D 模型有时无法理解文本到图像模型中的图像,导致形状与文本提示不匹配。只管如此,它仍旧比以前的最前辈技能快几个数量级。
他们在论文中写道:
虽然我们的方法在评估中的表现比最前辈的技能差,但它只用了一小部分韶光就可以天生样本。这可以使它对某些运用程序更实用,并且创造更高质量的3D工具。
Point-E架构与运行机制
Point-E模型首先利用文本到图像的扩散模型天生一个单一的合成视图,然后利用第二个扩散模型天生一个三维点云,该模型以天生的图像为条件。
虽然该方法在采样质量方面仍未达到最前辈的水平,但它的采样速率要快一到两个数量级,为一些利用情形供应了实际的权衡。
下图是该模型的一个high-level的pipeline示意图:
我们不是演习单个天生模型,直接天生以文本为条件的点云,而是将天生过程分为三个步骤。
首先,天生一个以文本标题为条件的综合视图。
接下来,天生⼀个基于合成视图的粗略点云(1,024 个点) 。
末了, 天生了⼀个以低分辨率点云和合成视图为条件的风雅点云(4,096 个点)。
在数百万个3D模型上演习模型后,我们创造数据集的数据格式和质量差异很大,这匆匆使我们开拓各种后处理步骤,以确保更高的数据质量。
为了将所有的数据转换为⼀种通用格式,我们利用Blender从20个随机摄像机角度,将每个3D模型渲染为RGBAD图像(Blender支持多种3D格式,并带有优化的渲染引擎)。
对付每个模型,Blender脚本都将模型标准化为边界立方体,配置标准照明设置,末了利用Blender的内置实时渲染引擎,导出RGBAD图像。
然后,利用渲染将每个工具转换为彩色点云。首先,通过打算每个RGBAD图像中每个像素的点,来为每个工具构建⼀个密集点云。这些点云常日包含数十万个不屈均分布的点,因此我们还利用最远点采样,来创建均匀的4K点云。
通过直接从渲染构建点云,我们能够避免直接从3D网格中采样可能涌现的各种问题,对模型中包含的点进行取样,或处理以不屈常的文件格式存储的三维模型。
末了,我们采取各种启示式方法,来减少数据集中低质量模型的频率。
首先,我们通过打算每个点云的SVD来肃清平面对象,只保留那些最小奇异值高于某个阈值的工具。
接下来,我们通过CLIP特色对数据集进行聚类(对付每个工具,我们对所有渲染的特色进行均匀)。
我们创造,一些集群包含许多低质量的模型种别,而其他集群则显得更加多样化或可阐明。
我们将这些集群分到几个不同质量的bucket中,并利用所得bucket的加权稠浊作为我们的终极数据集。
运用前景
OpenAI 研究职员指出,Point-E的点云还可用于制造真实天下的物体,比如3D打印。
通过额外的网格转换模型,该系统还可以进入游戏和动画开拓事情流程。
虽然目前的目光都集中在2D艺术天生器上,但模型合成人工智能可能是下一个重大的行业颠覆者。
3D模型广泛运用于影视、室内设计、建筑和各种科学领域。
当下3D模型的制造耗时常日须要几个小时,而Point-E的涌现正好填补了这一缺陷。
研究职员表示现阶段Point-E还存在许多毛病,如从演习数据中继续的偏差以及对付可能用于创建危险物体的模型缺少保护方法。
Point-E只是个出发点,他们希望它能引发文本到3D合成领域的「进一步事情」。
参考资料:
https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/?tpcc=tcplustwitter
https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html?src=rss