量子位 | "大众年夜众号 QbitAI

人类幼崽2岁就能做的事,AI竟然才学会?

早在2017年,就有网友吐槽:2岁幼童只要见过一次犀牛的照片,就能在其他图片里认出不同姿势、视角和风格的卡通犀牛,但AI却做不到。

直到现在,这一点终于被科学家占领了!

英伟达AI从图像中抽象出概念再生成新图像幼儿这个技能终于学会

最新研究创造,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机天生个性化的新图片。

有网友评价:非常酷,这可能是我这几个月来看到的最好的项目。

它是如何事情的?

让我们先来看几个例子。

当你上传3张不同角度的陶瓷猫照片,可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。

同样的例子还有艺术品:

铠甲小人:

碗:

不但是提取图像中的物体,AI还能天生特定风格的新图像。

例如下图,AI提取了输入图像的绘画风格,天生了一系列该风格的新画作。

更神奇的是,它还能将两组输入图像相结合,提取一组图像中的物体,再提取另一组的图像风格,两者结合,天生一张崭新的图像。

除此之外,有了这个功能,你还可以对一些经典图像“下手”,给它们添加一些新元素。

那么,这么神奇的功能背后是什么事理呢?

只管近两年来,大规模文本-图像模型,如DALL·E、CLIP、GLIDE等,已经被证明有很强的自然措辞推理能力。

但有一点:如果用户提出一些特定的需求,比如天生一张包含我最喜好的童年玩具的新照片,或者把孩子的涂鸦变成一件艺术品,这些大规模模型都很难做到。

为了应对这一寻衅,研究给出了一个固定的、预先演习好的文本-图像模型和一个描述观点的小图像集(用户输入的3-5张图像),目标是找到一个单一的词嵌入,从小凑集中重修图像。
由于这种嵌入是通过优化过程创造的,于是称之为“文本颠倒(Textual Inversion)”。

详细来说,便是先抽象出用户输入图像中的物体或风格,并转换为“S∗”这一伪词(pseudo-word),这时,这个伪词就可以被当作任何其他词来处理,末了根据“S∗”组合成的自然语句,天生个性化的新图像,比如:

“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。

值得把稳的是,由于本次研究运用了一个小规模、经由策划的数据集,因此在天生图像时能有效地避免刻板印象。

例如下图,当提示“年夜夫”时,其他模型方向于天生白种人和男性的图像,而本模型天生图像中则增加了女性和其他种族的人数。

目前,该项目的代码和数据已开源,感兴趣的小伙伴可以关注一下。

作者先容

该篇论文来自特拉维夫大学和英伟达的研究团队,作者分别是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉维夫大学的打算机科学博士生,师从Daniel Cohen-Or和Amit Bermano,紧张研究方向是在减少监督的条件下天生2D和3D模型,目前在英伟达事情。

参考链接:[1]https://textual-inversion.github.io/[2]https://github.com/rinongal/textual_inversion[3]https://arxiv.org/abs/2208.01618[4]https://twitter.com/_akhaliq/status/1554630742717726720[5]https://rinongal.github.io/