再生达利机械人瓦力文字生成图片的AI进级版来了

这是一张AI系统DALL-E 2根据笔墨描述“戴着贝雷帽和穿玄色高领毛衣的柴犬”（Shiba Inu dog wearing a beret and black turtleneck）天生的图像。

时隔一年，DALL-E的升级版来了！

当地韶光4月6日，人工智能研究机构OpenAI发布DALL-E 2（文本到图像天生程序）。
DALL-E 2具有更高分辨率和更低延迟，精确度改进了71.7%，写实度改进了88.8%，解析度更是原来的4倍，还可结合观点、属性及风格打造更生动的图像，如以莫奈（Claude Monet）的风格画出草原上的狐狸。

同时新增两大功能：更细颗粒度的笔墨局部修正图像，以及天生原图的多重风格变体。

再生达利机械人瓦力文字生成图片的AI进级版来了

前者比如这样！

在原图的2区域增加一个火烈鸟拍浮圈

高下分别为在原图的1区域和2区域增加一个小狗

DALL-E 2在更细的层面上运用DALL-E的文本到图像的能力。
用户可以从现有的图片开始，选择一个区域，并见告模型如何来修正它。
模型可以添补（或删除）物体，同时考虑到阴影方向、反射与质地等细节。

后者比如这样！

以同一张图像为基准，建立不同风格或编排的版本。

天生的图片是1024 x 1024像素，比原始模型供应的256 x 256像素有了飞跃

DALL-E的名称来自于艺术家萨尔瓦多·达利（Salvador Dalí）和《机器人总动员》的主角WALL-E，初版于2021年1月首次亮相。
DALL-E奠基在具备1750亿个参数的GPT-3模型上，但它仅利用120亿个参数，利用一个笔墨与图像配对的资料集，以笔墨阐述来产生图像。

萨尔瓦多·达利（Salvador Dalí）

《机器人总动员》的主角机器人WALL-E（瓦力）

OpenAI研究科学家Prafulla Dhariwal表示：“DALL-E 1只是从措辞中采取了GPT-3方法，并将其运用于天生图像：我们将图像压缩成一系列单词，然后学会预测接下来的内容”。

但是单词匹配并不一定能捕捉到人类认可的重点，而且预测过程限定了图像的真实性。
于是用CLIP（OpenAI去年发布的打算机视觉系统）来不雅观察图像，并以人类的办法总结它们的内容。

DALL-E系统根据笔墨“牛油果型的扶手椅”自动创作的部分图像

CLIP是原版DALL·E功能实现的根本，DALL-E 2则结合了CLIP和扩散模型两种技能的优点。
DALL·E图像天生的“扩散”（diffusion）过程可以理解为从“一堆点”出发，用越来越多的细节把图像添补完全。
扩散模型的特点在于，在捐躯多样性的条件下，能大大提升天生图像的逼真度。

DALL-E 2根据“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述天生的图像

为避免天生的图片被滥用，目前OpenAI已经履行了一些内置的保护方法。

该模型在已剔除不良数据的数据集上进行演习，将由经由OpenAI审查的互助伙伴进行测试，用户被禁止上传或天生“非G级”和“可能造成侵害”的图像，以及任何涉及仇恨符号、裸体、猥亵手势，或“与正在发生的重大地缘政治事宜有关的重大阴谋或事宜”的图像。

该模型也无法根据姓名天生任何可识别的人脸，纵然哀求的是“蒙娜丽莎”之类的内容。
同时，DALL·E 2 在天生的图片上都标有水印，以表明该作品是 AI 天生的。
空想情形下这些方法可以限定其产生不良内容的能力。

与之前一样，该工具并未直接向"大众年夜众发布。
但研究职员可以提交申请预览该系统，OpenAI希望往后将DALL·E 2纳入该组织的API工具集中，使其可用于第三方运用程序。

Dhariwal说道，“我们希望分阶段进行这个过程，以从得到的反馈中不断评估如何安全地发布这项技能。
”

任务编辑：李跃群

校正：栾梦

每期AI知识网

再生达利机械人瓦力文字生成图片的AI进级版来了

不会精湛算法也能赚AI数据标注让你轻松月入过万

AI软件彩虹字体效果设计技巧