AI绘画火了一文看懂背后技能事理

AI创作怎么火了？

今年开始，文本描述自动天生图片（Text-to-Image）的AI绘画黑科技一下子变火了。
很多人对AI绘画产生巨大兴趣是从一副AI作品的新闻开始的。
这幅由MidJourney天生的数字油画参加了Colorado展览会的艺术比赛，并且得到了第一名。
这个事宜可以想象的引起了巨大的辩论。
（难道300刀的奖金撬起了3千亿的市场？）

Jason Allen’s A.I.-generated work, “Théâtre D’opéra Spatial,” took first place in the digital category at the Colorado State Fair.Credit...via Jason Allen

Disco Diffusion是今年2月爆火的AI图像天生程序，可以根据描述的场景关键词渲染对应的图片。
今年4月，大名鼎鼎的OpenAI也发布了新模型DALL-E 2，命名来源于著名画家Dali和机器人总动员Wall-E，同样支持Text-to-Image。
在年初的时候，Disco Diffusion可以天生一些有氛围感的图片，但还无法天生精细的人脸，但很快到了DALL-E 2后就可以非常清晰的画出人脸了。
而现在到了Stable Diffusion在创作的精细程度和作画速率上更上了一个新的台阶。

AI绘画火了一文看懂背后技能事理

Disco Diffusion: Mechanical arm with a paint brush and a canvas by Li Shuxing and Tyler Edlin

DALL-E2: 将Johannes Vermeer 的名画“戴珍珠耳环的女孩”转换天生不同的面孔

Stable Diffusion: a beautiful painting of a building in a serene landscape

2022年8月，被视为当下最强的AI创尴尬刁难象Stable Diffusion正式开放，这无疑进一步给AI创作带来了最近的火热。
通过网站注册就可以利用，供应了方便简洁的UI，也大大降落了这类工具的利用门槛，而且效率高，图像质量好。
而如果不想费钱的话，Stable Diffusion还正式开源了代码、模型和weights，在huggingface上都可以直接clone和下载，支配到GPU上就可以随便用了。
huggingface上同时也已经有了diffusers库，可以成为调包侠直策应用，colab上也都有现成的notebook example了。
也因此热度，推出Stable Diffusion的AI公司StabilityAI完成了1亿美元的种子轮融资，公司估值达到了10亿美元。

Stable Diffusion开源后的搜索热度已经保持两个月了

和机器学习刚开始火的时候一样，AI天生技能也并不是凭空涌现的。
只是近一两年以来，作品的质量和打算速度日益快速提升，让我们忽略了AI绘画同样悠久的历史。

历史发展

AI绘画在打算机涌现后不久就已经开始有了最初的探索。
在70年的时候艺术家Harold Cohen就已经创造了程序“AARON”进行绘画，而不同于现在的黑科技，当时AARON是真的去操作机器臂来画画。
Harold对AARON的改进持续了良久，80年代的时候，ARRON可以考试测验画三维物体，并且很快就可以画彩图了。
但AARON没有开源，以是它学习的是Harold本人的抽象色彩绘画风格。
2006年，涌现了The Painting Fool，有点类似AARON，通过不雅观察照片提取颜色信息，利用现实中的材料进行创作，以是同样电脑程序通过学习信息就行物理绘画的办法。

现在我们说的更多的“AI创作”的观点，更多的指的是基于Deep Learning模型进行自动作图的程序，这种绘画办法得益于近些年打算机软硬件的高速发展。
2012年两位大神Andrew Ng和Jeff Dean进行了一次实验，利用1.6万个CPU和Youtube上一千万个猫脸图片用了3天演习了当时最大的深度学习网络，天生了一个猫脸。
在现在看来这个结果不值一提，但对当时的CV领域来说，是具有打破性的意义的考试测验，并且正式开启了AI创作的全新方向。

2006年，李飞飞教授创造了很多研究事情在AI算法方面忽略了“数据”的主要性，于是带头开始构建大型图像数据集 - ImageNet，也因此图像识别大赛由此拉开帷幕，三年后李飞飞团队揭橥了ImageNet的论文从而真正发布了ImageNet数据集，给AI创作供应了强大的数据库。
同样2006年，Geoffrey Hilton团队实现了GPU优化深度神经网络的方法，从而“深度学习”这个新名词的观点被提出，各种Neural Networks的技能手段开始不断涌现，深度学习的发展也加速了AI在两个赛道Discriminative model和Generative model的发展。
2012年的AlexNet，2014年的VGGNet，2015年的ResNet，2016年的DenseNet都是前者的经典模型。

而对付Generative model，2014年大神Ian Goodfellow提出了GAN，两个神经网络相互学习和演习，被认为是CV领域的重大打破，通过两个神经网络的相互博弈，使得天生的数据分布更靠近真实数据分布。
从此2014年的GAN、VAE以及2016年的PixelRNN/CNN成为了三类主流的Generative models。
2017-2018年深度学习框架也培植成熟，PyTorch和Tensorflow成为首选框架，供应了很多图像处理的大量预演习模型，大大降落了技能门槛。
2018年，Nvidia发布了Video-to-Video synthesis，它可以通过发生器、鉴别器网络等模块，合成高分辨率照片一样真实的视频，实现了把AI推向新的创造场景。
GAN的大规模利用，也涌现了很多基于GAN的模型迭代和优化，2019年BigGAN的涌现让GAN的天下更强大，由它演习天生的图像已经无法分辨真假了，被认为是当时最强的图像天生器。

但是GAN依然存在一些毛病，比如一些研究中都有提到模型的稳定性和收敛较差，尤其是面对更加繁芜和多样的数据。
更为主要的是，让天生的数据分布靠近真实数据分布，也便是靠近现有的内容的样子同样会形成一个问题，便是天生的内容是非常靠近现有内容，靠近也便是没法打破带来艺术上的“创新”。

而2020年开始在图片天生领域研究更多的Diffusion model战胜了这些问题。
Diffusion model的核心事理便是给图片去噪的过程中理解故意义的图像是如何天生的，同时又大大简化了模型演习过程数据处理的难度和稳定性问题。
以是Diffusion模型天生的图片比较GAN模型京都更高，且随着样本数量和演习时长的累积，Diffusion model展现了对艺术表达风格更好的仿照能力。
2021年的比拟研究表明，在同样的ImageNet的数据库演习后的图片天生质量，利用Diffusion model得到的FID评估结果要优于当时最好的Generative models BigGAN-deep等等。

正如开头提到，今年的AI热点属于文本创作内容，而实在一贯到2021年初，OpenAI发布的DALL-E其AI绘画水平也就一样平常，但这里开始拥有的一个主要能力就可以按照文本描述进行创作。
然后今年2022年，在三座大山Stable Diffusion、DALL-E 2、MidJourney天生的各种画作中，已经引起了各种人群包括开拓者、艺术家、美术事情者等等的兴趣考试测验和辩论。
Stable Diffusion的开源和大略的过滤器功能无疑将Text-to-Imagede的热点和争议推向了高潮。

而很快大厂们不再只局限于图片，同时又推出了Text-to-Video的产品。
Meta在刚过去的玄月底宣告了新的AI产品Make-A-Video，利用者可以同样利用文本的办法生产简洁和高质量的短视频，他们的解释是系统模型可以从文本-图片配对数据中学习这个天下的样子并从视频片段中推理没有文本情形下的天下变革。
从实现场景来看也有多种利用办法，比如文本描述不同类型的场景动作、利用单张或一对图片天生变革视频、在原始视频中加入额外的元素和变革，Meta也表明了他们之后会发布demo工具。
很快在十月初，Google也发布了他们新的AI产品Imagen Video，同样是利用文本生产视频的工具。
Imagen Video还在研发阶段，但Google的学术论文表明了这个工具可以通过文本描述生产24 fps的分辨率在1280x768的视频，同时可以有风格化能力和物体3D旋转能力。
文章还表明Imagen Video在文本内容的视频呈现上也会相对付优于DALL-E和Stable Diffusion。
又没过几天，Google和Phenaki宣告了另一个文本生产视频工具Phenaki，乃至可以生产2分钟以上较长的视频。
Google同时也解释了“问题数据”对付AI模型的影响和潜在的风险，公司一贯致力于严谨过滤暴力和色情内容以及文化偏差等问题，因此短期内并不会开源Imagen Video模型，但我们相信不久的将来，不管通过工具或者源代码的办法，这些cutting-edge的视频生产模型也会和图片生产模型一样很快和AI创作者们相见。

既然有了Text-to-Image和Text-to-Video，那Text-to-Speech肯定也要蹭一下热度。
10月中旬postcast.ai发布了一段音频是跟用AI天生的跟Steve Jobs的对话火了（新闻），从语音语调上听起来真的和Steve本人没有差别，完备不像是机器人的声音。
而技能供应方play.ht在他们的网站上也上线了新的这个非常有吸引力的功能Voice Cloning，上面供应各种名人的AI合成声音。
他们并没有供应更多的技能信息，但看起来他们利用了2020年上线并在2021年底开放的GPT3模型，同时从效果上看起来已经非常靠近复制真人的声音了。

技能解读

看到历史和一些生动的例子，是不是以为AI天生各种内容已经就在面前了？我们可以随便写几句话就能天生精美的图片、视频、声音知足各种需求了？但是实际操作上依然会有很多的限定。
下面我们就来适当阐发一下最近较热的文本天生图片和视频技能事理，到底实现了什么功能以及干系的局限性在哪里，后面我们再针对实际游戏内容做一些demo，更贴合运用处景的理解这些局限性。

（一）Text-to-Image技能

不同的AI图片天生器技能构造上会有差别，本文在末了也附上了一些主要模型的参考文献。
我们在这里紧张针对照来热门的Stable Diffusion和DALL-E 2做一些解读和谈论。
这类的AI天生模型的核心技能能力便是，把人类创作的内容，用某一个高维的数学向量进行表示。
如果这种内容到向量的“翻译”足够合理且能代表内容的特色，那么人类所有的创作内容都可以转化为这个空间里的向量。
当把这个天下上所有的内容都转化为向量，而在这个空间中还无法表示出来的向量便是还没有创造出来的内容。
而我们已经知道了这些已知内容的向量，那我们就可以通过反向转化，用AI“创造”出还没有被创造的内容。

Stable Diffusion

Stable Diffusion的整体上来说紧张是三个部分，language model、diffusion model和decoder。

Language model紧张将输入的文本提示转化为可以输入到diffusion model利用的表示形式，常日利用embedding加上一些random noise输入到下一层。

diffusion model紧张是一个韶光条件U-Net，它将一些高斯噪声和文本表示作为模型输入，将对应的图像添加一点高斯噪声，从而得到一个轻微有噪点的图像，然后在韶光线上重复这个过程，对付轻微有噪点的图像，连续添加高斯噪声，以得到更有噪点的图像，重复多次到几百次后就可以得到完备喧华的图像。
这么做的过程中，知道每个步骤的图像版本。
然后演习的NN就可以将噪声较大的示例作为输入，具有预测图像去噪版本的能力。

在演习过程中，还有一个encoder，是decoder的对应部分，encoder的目标是将输入图像转化为具有高语义意义的缩减采样表示，但肃清与手头图像不太干系的高频视觉噪声。
这里的做法是将encoder与diffusion的演习分开。
这样，可以演习encoder得到最佳图像表示，然后不才游演习几个扩散模型，这样就可以在像素空间的演习上比原始图像打算少64倍，由于演习模型的演习和推理是打算最贵的部分。

decoder的紧张浸染便是对应encoder的部分，得到扩散模型的输出并将其放大到完全图像。
比如扩散模型在64x64 px上演习，解码器将其提高到512x512 px。

DALL-E 2

DALL-E 2实在是三个子模块拼接而成的，详细来说：

一个基于CLIP模型的编码模块，目标是演习好的文本和图像encoder，从而可以把文本和图像都被编码为相应的特色空间。

一个先验（prior）模块，目标是实现文本编码到图像编码的转换。

一个decoder模块，该模块通过解码图像编码天生目标图像。

在本篇文章开始前，希望你可以理解go的一些基本的内存知识，不须要太深入，大略总结了如下几点：

从上面的模型拆解中可以看出，DALL-E 2和Stable Diffusion的text encoder都是基于openAI提出的CLIP，图像的天生都是基于diffusion model。
个中，CLIP是学习任意给定的图像和标题（caption）之间的干系程度。
其事理是打算图像和标题各自embedding之后的高维数学向量的余弦相似度（cosine similarity）。

（二）Text-to-Video技能

文本天生视比年夜概从2017年就开始有一些研究了，但一贯都有很多限定。
而从今年10月初Meta宣告了他们的产品Make-A-Video以及Google宣告了Imagen Video。
这两款都是创新了Text-to-Video的技能场景。
而这两款最新产品都是从他们的Text-to-Image产品衍生而言的，以是技能实现办法也是基于Text-to-Image的技能演化而成。

实质上来说我们可以认为静态图片便是只有一帧的视频。
天生视频须要考虑图片中的元素在韶光线上的变革，以是比天生照片会难很多，除了根据文本信息天生合理和精确的图片像素外，还必须推理图片像素对应的信息如何随韶光变革。
这里我们紧张根据Make-A-Video的研究论文做一下拆解。

Meta's Make-A-Video

Make-A-Video正是建立在text-to-Image技能最新进展的根本上，利用的是一种通过时空分解的diffusion model将基于Text-to-Image的模型扩展到Text-to-Video的方法。
事理很直接：

从文本-图像数据里学习描述的天下长什么样（文本天生图像）

从无文本的视频数据中学习天下的变革（图像在韶光轴上的变革）

演习数据是23亿文本-图像数据（Schuhmann et al），以及千万级别的视频数据（WebVid-10M and HD-VILA-100M）。

整体上来说Make-A-Video也是有三个主要组成部分，所有的组成部分都是分开演习：

基于文本图像pair演习的基本的Text-to-Image的模型，统共会用到三个网络：

Prior网络：从文本信息天生Image特色向量，也是唯一吸收文本信息的网络。

Decoder网络：从图像特色网络天生低分辨率64x64的图片。

两个空间的高分辨率网络：天生256x256和768x768的图片。

时空卷积层和把稳层，将基于第一部分的网络扩展到韶光维度

在模型初始化阶段扩展包含了韶光维度，而扩展后包括了新的把稳层，可以从视频数据中学习信息的韶光变革

temporal layer是通过未标注的视频数据进行fine-tune，一样平常从视频中抽取16帧。
以是加上韶光维度的decoder可以天生16帧的图片

以及用于高帧速率天生的插帧网络

空间的超分辨率模型以及插帧模型，提高的高帧速率和分辨率，让视觉质量看起来更好。

整体评估上都要优于今年早些期间的研究：

上风：

这里的好处很明显便是不再须要利用大量的文本视频pair数据来演习模型。

因此也大大加速了模型演习韶光。

继续了现在最好的文本天生图像模型的优质结果。

前两点都是之前text-to-video天生模型发展的瓶颈。

限定：

这个方法无法学习只能从视频中得到的关系文本和征象的关系，比如一个人是从左往右挥手还是从右往左挥手的的视频细节。

目前限于大略的动作和变革，包括多个场景和事宜的较长视频，或者更多的视频中展现的故事细节很难实现。

一样是利用大量公开数据的大规模模型，一样有用于生产有害内容的风险。

Google's Imagen Video

是由7个串联的子模型构成，模型包含多达116亿个参数，个中T5是一个language model用来理解文本语义，Base是卖力生产视频中的关键帧，SSR模型提升视频的像素，TSR卖力添补关键帧之间赞助帧。

能够实现的技能运用处景

通过底层技能尤其在CV、NLP干系的各种模型在不同内容和多模态场景中的考试测验和迭代，对付AI创作和内容生产同样无外乎在不同类型内容（文本、音频、图像、视频）生产和内容跨类型的生产场景。
下图很好地总结了这些实际中可以利用的技能场景。

针对游戏内容的Demo

这些技能实现是否同样能给我们供应游戏干系的运用处景呢？我们在这里针对相对较为成熟的图像干系的天生场景做了几个demo考试测验。
整体上来说在我们游戏中台干系的业务场景中是有一些运用点的。
下面看一下这几个demo的样子。

（一）文本天生图像

针对庄周这个英雄的样子我们利用工具和代码都考试测验了一下如何能够生产不同风格的庄周

游戏中的样子：

经由我们以下描述后的样子，同时也可以加上卡通、二次元、素描等等风格的描述，我们得到各种不同风格类型的样子：

Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation

我们在各种考试测验的过程中很明显的感知和创造一些限定：

文本描述天生的结果会有一些随机性，天生的图片大概率是很难完备按照“需求”天生，更多带来的是“惊喜”，这种惊喜在一定的层面上代表的也是一种艺术风格。
以是在实际的利用中并不是很适用于按照严格哀求生产图片的任务，而更多的适用于有一定的描述，能够给艺术创意带来一些灵感的迸发和参考。

文本的准确描述对付天生的图片样子是极其主要的，技能本身对文本描述和说话有较高哀求，需对脑海中的核心创意细节有较为准确的描述。

生产Domain-specific例如腾讯游戏高度同等的内容元素需对预演习大模型进行再演习。

而文本天生视频的场景相对很新，Google/Meta也是这两三周才官宣对应的视频天生器，且还没有开放利用和开源，但我们预估以目前的热度和迭代速率，在未来的3-6个月内我们可以对干系能力有更清晰的探索和考试测验。

（二）图像领悟和变换

图像本身的领悟变换在早几年的时候就已经有了一些研究和探索，且有了相对较为成熟的天生的样子，这里我们利用和平精英的素材考试测验做一种变换风格的样子。

和平精英素材原图和星空：

更加深度的将星空的颜色和变革领悟到原始图片中：

相对较浅度的将星空的颜色像素领悟到原始图片中：

其余一种很故意思的办法是，我们可以变换人物风格，比如王者英雄不知火舞和亚瑟在我们印象的样子，我们可以把他们Q化成数码宝贝的样子：

不知火舞

亚瑟

试想一下，这些不同的技能实现乃至都可以串联在一起，比如我们可以先用文本描述天生图片，再对图片进行风格变换等等，那这里可以操作的事情就越来越多了，这里就不一一展开了。

而再进一步思考（发自

AI创作的意义及风险

（一）意义

正如开头提到，今年的AI热点属于AI创作，从2月的Disco Diffusion，到4月的DALL-E 2和MidJourney内测，到5/6月的Google模型Imagen和Parti，再到7月尾的Stable Diffusion。
越来越多的人开始考试测验AI创作图像、声音、视频、3D内容等等，这让我们看到了AI在艺术领域越来越多的可能性。

十多年前当天下都开始为AI和机器学习欢呼的时候，我们看到了很多AI可以做的事情，而“创作力”和“想象力”也是一贯以来AI最无法啃动的硬骨头，也是人类天下在AI和机器取代面前末了的倔强，然而现在看起来也是可以被技能拆解的。

从Alpha GO身上，我们就看到了AI在聪慧和打算上就已经打破了人类极限，而AI创作又进一步在创造力和想象力逐渐取代人类。
在未来，一个各方面成熟的AI完备取代人类看起来已经是越来越现实的问题。
如果AI未来可以完成打算机领域高下游所有的事情包括自己写代码，那么人类须要思考的问题便是如何和一个超越自己所有方面的人共存于世了。

（二）风险

AI创作的大火在很永劫光往后转头看一定有Stable Diffusion的开源的一席之地，同样这也会带来一些争媾和风险。
Stability AI的开源是大略粗暴的，他们险些不对天生内容做任何审核或者过滤，他们只包含了一些关键词过滤，但技能上可以轻松绕过，Reddit上就有教程如何5秒内移除Stable Diffusion的安全过滤。
因此用户可以轻松指控Stable Diffusion天生暴力或不良图片，描述公众年夜世人物和名人，也可以高度仿制艺术品或者有版权保护的图像，aka deepfakes。

由此我们也可以设想这项技能可能被用于各种恶意和影响巨大的用场，我们还很难判断在更久的未来，这项技能的开源是会给我们更大的技能改造还是各种问题。
目前最大的乱子可能便是Stable Diffusion让天生暴力和色情图像变得更随意马虎，且内容中每每包含真人特色。
虽然开源解释禁止人们利用该模型履行各种犯罪行为，但只要把Stable Diffusion下载到自己的电脑上，利用者可以完备不守约束。
虽然很多论坛例如Reddit有不少约束政策且会封禁干系内容，但仍有用户不断天生各种名人明星的荒诞图像，AI天生内容的伦理问题再次会涌如今风口浪尖。

在AI创作内容的这些模型中，演习数据中一类很明显的视觉素材便是受版权保护的作品。
这在艺术家眼里，模拟艺术风格和美学的行为是不道德行为，且可能违反版权。
Stable Diffusion也是个中主要一员，它的演习集LAION-5B包含50多亿张图像与匹配的文本标注，个中就包含了大量受版权保护的内容，这些内容实在归浩瀚独立艺术家和专业拍照师所有。
这些版权争议，也给这些AI创尴尬刁难象带来了盗窃艺术家创作成果的骂名，也让很多有抱负有想法的艺术家越来越难以生存。

参考资料：

1.https://arxiv.org/pdf/2209.14697.pdf

2.https://arxiv.org/pdf/2112.10752.pdf

3.[1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution

4.https://arxiv.org/pdf/2204.06125.pdf

5.https://imagen.research.google

6.[2105.05233] Diffusion Models Beat GANs on Image Synthesis

7.https://ommer-lab.com/research/latent-diffusion-models/

（把稳：后台回答关键词“AI”，即可获取demo生产工具）

B站直播的自研P2P实践 | 助力S12英雄同盟总决赛

美团高性能终端实时日志系统培植实践

RocksDB 7 终于办理了 Compaction 时性能低落问题

实时营销引擎在vivo营销自动化中的实践 | 引擎篇04

从0到1000万：哔哩哔哩直播架构演进史

本文由高可用架构转载。
技能原创及架构实践文章，欢迎通过"大众年夜众号菜单「联系我们」进行投稿

\公众 data-from=\公众0\"大众 data-is_biz_ban=\"大众0\"大众>

每期AI知识网

AI绘画火了一文看懂背后技能事理

人工智能时代若何让AI为孩子进修所用

DIO网站设计,探索现代科技与用户体验的完美融合