量子位 | "大众年夜众号 QbitAI

把椅子上的萌犬P成猫猫,须要几步?

第一步,圈出狗狗。
第二步,见告AI你的需求。
鼠标一点,齐活。

这位AI P图大师,实在是位老朋友——OpenAI风靡环球的那位DALL·E。

DALLE这波超进化画质艺术感双飞升还学会了无痕P图

现在,它刚刚完成了“2.0超进化”。
不仅新学了一手出神入化的P图绝技,创作质量也有了飞跃式的提升。

话不多说,直接看作品感想熏染一下~

这是DALL·E 2在“星云爆炸状柯基头”这一提示下的创作出来的画作:

这幅萨尔瓦多·达利的画像,是不是有点萨尔瓦多·达利内味儿了?

跟初代DALL·E比起来,其实是画质与艺术感双双飞升了。

△“日出时分安坐在野外里的狐狸,莫奈风格”

以是,研究职员详细如何点亮了DALL·E的新技能点?

CLIP+扩散模型

DALL·E此番进化,大略来说便是分辨率更高了,延迟更低了。

此外,还有更新2大新功能:

首先,在更细粒度上实现文本→图像功能。

也便是说,DALL·E 2可以根据自然措辞提示进行P图。
在P图的过程中,还会考虑阴影、反射、纹理等元素的变革。

比如在左图标“2”的位置P一个火烈鸟泳圈,DALL-E 2会把水面倒影这种细节也处理到位。

其次,是可以在保留原作核心元素的根本之上,授予原作船新的风格。

并且天生画面的画质是DALL·E 1的4倍,即从256×256提升到了1024×1024。

CLIP是原版DALL·E功能实现的根本,是一个卖力给图像重排序的模型,其零样本学习能力已经在各种视觉和措辞任务上大放异彩。

而扩散模型的特点在于,在捐躯多样性的条件下,能大大提升天生图像的逼真度。

于是,OpenAI的研究职员设计了这样一种方案:

在这个名为unCLIP的架构中,CLIP文本嵌入首先会被喂给自回归或扩散先验,以产生一个图像嵌入。

而后,这个嵌入会被用来调节扩散编码器,以天生终极的图像。

OpenAI阐明称,DALL·E能够get图像和用于描述画面的文本之间的关系。
其图像的天生是在“扩散”过程中完成的,可以理解为是从“一堆点”出发,用越来越多的细节去把图像添补完全。

研究职员将DALL·E 2与DALL·E、GLIDE等模型进行了比拟。

实验结果显示,DALL·E 2的图像天生质量与GLIDE相称,但DALL·E的天生结果更具多样性。

目前,DALL·E 2并未对"大众年夜众开放,不过如果你感兴趣,可以在线注册申请一发~

项目地址:https://openai.com/dall-e-2/#demos

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态