而如今,和以往的“写实派”不同,AI要开始进军“抽象派”艺术了!
话不多说,下面是AI画的一些输入笔墨为“丛林中的老虎”的作品:
AI的“艺术细胞”你get到了吗?这离真正的抽象派大师画作还有多远?
而这次AI天生的图像,之以是与此前我们见到的GAN模型的风格大不一样,是DeepMind利用了一种新算法。
该算法终极许可用户输入一串文本,AI就能对这个字符串做动身明性的反应,输出一个阐明该字符串的艺术作品。
再比如输入“云”,天生如下作品:
输入“一张脸”,“尖叫”,“一只猫”,“一个笑脸”,“着火的屋子”,“一个人走路”,“丛林中的老虎”,“洞穴壁画”:
……
如此不同凡响的新技能,有什么技能创新吗?
神经视觉语法系统与双重编码器总的来说,DeepMind的这个算法与利用GAN天生图像有3种不同:
首先,此算法的图像是“进化”(evolve)而来,而不是利用反向传播直接天生。
利用进化搜索 (evolutionary-search),可以天生一个分歧凡响的“美学输出”,大概可人为进行更多输出掌握。
其次,该算法不直接进化图像,而是进化一种天生图像的视觉语法。这才能天生有趣的构造化图像。
末了,该算法利用了一个预演习的多模态“评判器” (critic),它接管了网上大量图片息争释笔墨(captions)的演习。这个算法“理解”笔墨的视觉意义的能力很主要。
下面就来详细说一下用于蜕变出图像的神经视觉语法系统和用来评估图像得当度的图像文本双重编码器“评判器”。
神经语法系统采取了分层构造,可大大扩展核心神经发生器的功能。
它将用户输入的字符串输入到顶级的LSTM中,LSTM(是非期影象网络)可为每个笔划(stroke)指定一个中间输入字符串(intermediate input string )。
这个中间输入字符串的浸染与原始输入字符串非常相似。然后这个中间字符串又被输入到底层的的LSTM以输出终极图像的笔划描述。如下图所示。
详细细节如,中间向量的第二个位置决定了编码的笔划是不透明的还是透明的。
第三个位置决定是利用顶层指定的位置还是中间层指定的位置来确定笔划的原点。
第四个位置确定笔划中要产生的行数。
……
为了发挥评判的浸染,须要一种评分机制,给图像与句子的相似程度评分。
为此,他们选择了Frome的双编码器方法,该方法最近在大量网络数据集上得到了巨大成功。
该双编码器模型由两个分别对文本和图像进行操作的编码器组成。该团队在ALIGN(A Large ImaGe and Noisy-text)数据集上演习它。
视觉编码器基于NF-Net-F0模型,以224x224分辨率的RGB图像作为输入;文本编码器是一个80M参数因果转换器(causal Transformer)。
该文本编码器保留了单词的顺序以及大小写之间的差异,会将“Jungle in the Tiger”和“a tiger in the jungle”天生不一样的图像。
此外,得益于进化搜索,可利用修剪程序来确定有助于图像得分(得当度)的关键标记。在全体进化过程中,也可以删除多余的标记,“调教”出只管即便满意的图像。下图为“一颗苹果树”的标记修剪。
可连续改进:初始画布不必空缺
那这样一种技能有什么实际用途呢?
团队先容到,它可以用于赞助艺术创作、发明新的标记制作方法或者将其天生过程浸染于3D模型等。
而且画布的背景初始条件不必空缺,没准可以从照片或现有图像开始,在每次迭代中用不同的文本来调节,终极让图像一点点演化成层次更丰富的作品!
当然,他们的算法也有一些须要改进的地方,所天生的图像有时让人感到惊喜,而有时却看起来平平无奇乃至混乱,由于过拟合产生了越来越抽象的作品。
而在许可背景颜色进化得更丰富时,也会造成图像其他方面多样性的降落。
目前这个算法还存在一些“偏见”,比如哀求天生“自画像”时,终极大多数肖像都是白人男性。
参考链接:
[1]https://www.arxiv-vanity.com/papers/2105.00162/
[2]https://twitter.com/DeepMind/status/1391732014806614027
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态