AI 又开画展了Google Brain 推出新的图像生成模型Imagen

小编

今年4月的时候，OpenAI 曾展示了它新的图像天生神经网络 DALL-E 2，它可以险些按照任何哀求来天生高分辨率的图像，并在大多数方面都超过了最初版本的 DALL-E。

可仅仅过了一个月，Google Brain 就在近日也发布了自己的图像天生人工智能——Imagen，而它的表现乃至比 DALL-E 2 要更好。

AI 又开画展了Google Brain 推出新的图像生成模型Imagen

Imagen 的干系论文于5月23日发布在 arxiv 上

（图片来源：arxiv）

Imagen 是一种文本到图像的扩散模型，具有深层次的措辞理解能力，可以通过输入文本创建逼真的图像。
Imagen 利用大型 frozen T5-XXL 编码器将输入的文本编码为‎‎嵌入‎‎，然后条件扩散模型将文本嵌入映射到 64×64 的图像中，之后再进一步利用超分辨率扩散模型天生 256×256 和 1024×1024 的图像。

输入“一只穿着着蓝色格子贝雷帽和赤色波点高领毛衣的金毛犬”后 Imagen 的动作

（图片来源：Imagen）

Imagen 的许多图片都令人惊叹不已，不仅仅是由于图片内容有趣又奇幻，而且很多图片场景带来的真实感十分强烈。

（图片来源：MIT technologyreview）

就像 OpenAI 发布 DALL-E 时所做的一样，Google 也用各种“拟人化动物”的可爱图片来宣扬他们的工具，比如一只戴着宇航员头盔的浣熊，一只趴在寿司屋子里的柯基，一只戴着皇冠坐在国王宝座上的博美等等。

但是，这些公开的大多数图片之以是都如此可爱，或许是经由精心挑选的结果。
实在像 DALL-E 2 和 Imagen 这样的模型，每每依赖于大量网络抓取的图像数据，而这些数据常日是未经处理的，个中既有好的数据，同时也会有不康健的数据。

Imagen 团队表示 :“虽然我们对一部分演习数据进行了过滤，以去除噪音和不良内容，如色情图像和有毒措辞，但我们也利用了 LAION-400M 数据集，众所周知，该数据集包含大量不当内容，包括色情图像、种族歧视和有害的社会刻板印象。
Imagen 依赖于在未记录的网络规模数据上演习的文本编码器，从而继续了大型措辞模型的社会偏见和局限性。
因此，Imagen 存在对有害的刻板印象和表述进行编码的风险，这匆匆使我们决定在没有进一步保障方法的情形下，不发布 Imagen 供"大众利用。
”

只管 DALL-E 2 和 Imagen 存在风险，但它们实质上大大地推动了人工智能领域的发展，使人工智能再次达到了新的高度。
并且，这种人工智能图像天生的技能将有可能成为改变天下的一项技能。

（图片来源：pixabay）

回顾过往，你会创造人工智能在发展到一定程度之后都受到了一个瓶颈的困扰：紧张的机器学习手段还是来自于蛮力打算，而且其依赖大量的数据来演习系统。
这离人类的思考办法还是有很大差异的。
人类在思考时可以进行泛化，例如，婴儿直知道什么是猫之后，再见到其他的猫就能立时知道这是猫。

机器无法进行泛化，这从其余一个方面也反响了机器学习一贯只能通过大量数据剖析模拟人类的逻辑剖析能力，而一贯难以实现人类大脑的另一强大功能——想象力。

直到2014年，当时还是蒙特利尔大学博士生的 Ian Goodfellow 溘然想到了这个问题的答案——对抗性神经网络。
对抗性神经网络的事理是两个 AI 系统可以通过相互对抗来创造超级真实的原创图像或声音。
对抗性神经网络授予了机器创造和想象的能力，也让机器学习减少了对数据的依赖性，对付人工智能是一大打破。

对抗性神经网络被称作是近年来最有潜力的，办理了一贯困扰人工智能领域数据来源问题的主要机器学习模型，可以说是真正实现了不依赖人类的无监督学习。
对抗性神经网络更是在2018年入选了《麻省理工科技评论》“十大打破性技能”。

自2018年以来，由对抗性神经网络带来的无监督学习方法吸引了越来越多的关注，并使得 AI 在多个领域取得了巨大的进展。
除了前面提到的图像天生领域，AI 在文本创作领域同样表现不俗。
入选2021年《麻省理工科技评论》“十大打破性技能”之一的 GPT-3 便是一种利用对抗性神经网络无监督学习算法的 “大型措辞模型”。

GPT-3 由旧金山的研究实验室 OpenAI 创建。
基于GPT-3，AI 能够模拟人类书写文本，且逼真程度令人夸奖，人们乃至认为 GPT-3 可以写出任何东西：同人小说、哲学辩论、乃至代码。
GPT-3 的涌现也让我们可以期待 AI 将在未来走得更远。

末了，让我们尽情欣赏 Imagen 创造的各种“怪异而美妙”的“画作”吧！

戴着大理石耳机的大理石考拉DJ

（图片来源：Imagen）

农场上由玉米制成的巨型眼镜蛇

（图片来源：Imagen）

在雪地里戴着空手道腰带的火龙果

（图片来源：Imagen）

一只戴着太阳镜和沙滩帽的柯基在时期广场骑自行车

（图片来源：Imagen）

一只蓝鸦站在一大篮彩虹马卡龙上

（图片来源：Imagen）

一只非常愤怒的小鸟

（图片来源：Imagen）

一只外星章鱼漂浮在传送门上阅读报纸

（图片来源：Imagen）

一个大脑骑着火箭飞船向月球飞去

（图片来源：Imagen）

泰迪熊在奥运会400米蝶泳比赛中拍浮

（图片来源：Imagen）

一对机器人夫妇在埃菲尔铁塔的背景中享用美食

（图片来源：Imagen）

项目地址：https://gweb-research-imagen.appspot.com

论文地址：https://arxiv.org/pdf/2205.11487.pdf

参考资料：

1、The dark secret behind those cute AI-generated animal images-MIT technologyreview

2、imagen.research.google

3、《科技之巅3》-公民邮电出版社

每期AI知识网

AI 又开画展了Google Brain 推出新的图像生成模型Imagen

低廉甜头绘本装订制作过程把横向图做成跨页第一次考试测验这样订装

被遗忘的宝藏卷草龙纹