Generative Al for Everyone - Generative AI Applications - Image generation。
到目前为止,这周我们大部分韶光都集中在文本天生上。这是许多用户都在利用的功能,也是浩瀚天生式AI工具中最具影响力的。然而,天生式AI的另一大看点正是图像天生。现在,一些新兴的模型能够创造出文本或图像,因其能够超过文本和图像这两种模态,我们称之为多模态模型。
接下来,我将向你展示图像天生的事情事理。只须要一句大略的提示词,你就能利用天生式AI创造出一张全新的俏美人像,或是一个未来派场景的图画,或者像这样一张酷炫的机器人图像。
那么,这项技能是若何实现的呢?现今的图像天生紧张依赖一种叫做扩散模型的技能。扩散模型是基于互联网上或其他来源积累的海量图像资料演习的,扩散模型的核心是监督学习。这是它的事情事理。
假设算法在互联网上找到了一个像这样的苹果图片,它想从这样的图片和其他数亿张图片中学习如何天生图片。
·首先要做的是拿这张图片,然后逐渐增加噪点,让图片从清晰的苹果图逐渐变得模糊,直到完备变成随机像素点构成的噪点图,这个过程中所有像素点都是随机天生的,以至于终极图片完备失落去了苹果的形态。
·然后扩散模型利用这些逐步加噪的图片作为学习数据,通过监督学习的办法,输入一张很多噪点的图片,演习模型输出一张噪点较少的图片。
·详细来说,它会创建一个数据集,第一个数据点是这样的:如果给定第二个输入图像,我们希望监督学习算法能学会输出这个苹果的更清晰版本。这是另一个数据点。给定这第三张噪点更多的图像,我们希望算法能学会输出像这样轻微清晰些的版本。
·末了,给定一个像这第四张图像那样完备由噪点构成的图像,我们希望它能学会输出较为清晰的图片,至少能够模糊地显示出一个苹果的轮廓。
·末了,给定一个像这第四张图像那样完备由噪点构成的图像,我们希望它能学会输出较为清晰的图片,至少能够模糊地显示出一个苹果的轮廓。
在利用这种方法对数以亿计的图片进行学习之后,如果你想用它来天生一张全新的图片,就须要从一张纯粹的噪点图片开始,即每个像素都是完备随机选取的。然后我们把这张图片提交给我们先前已经演习好的监督学习算法。
当我们输入纯噪点图片时,它学会从这张图片中去除一些噪点,你可能会得到这样一张图片,在图片的中间部分模糊地描述出一个水果的轮廓,详细是什么水果还看不出来。
在第二张图片中,我们再次将它输入到模型中,它会进一步减少噪声,这时候图像中开始涌现西瓜的形状。经由再一次的处理,图像变得更清晰,终极我们得到了一张看起来非常不错的西瓜图片。
在我之前的讲解中,我展示了一个过程,通过四个步骤分别增加和减少图片中的噪声。不过,在现实中,一个扩散模型常日须要进行大约100个这样的步骤。我们的算法可以随机天生各种图片,但也可以通过指定提示词来勾引它天生想要的特定图像。
现在我将先容如何通过修正算法来添加文本或提示词,以便精确辅导图片的天生。在演习数据中,有了这样的图片,比如这个苹果,还有一个描述或提示,这些都是用来天生这个苹果的。这里我有一个文本描述,说这是一个红苹果。然后会像以前一样,给这张图片添加噪点,直到得到这第四张图像,这是纯噪点。
但是要改进监督学习算法,不再仅仅是输入带有噪点的图片然后输出一张清晰的图片,而是会同时输入这张带噪点的图片和一段文本解释或者提示词,也便是"红苹果",作为学习算法的输入A。在这个输入的根本上,想让算法能输出一张清晰的苹果图片。
类似地,会用其他噪点图像创建更多演习样本,每个样本都包括一张噪点图像和"红苹果"的笔墨提示,目标是让算法学会从中重修出一张更清晰的红苹果图像。在学习了大量这样的数据后,若想用这个算法来天生一个绿色喷鼻香蕉的图像,像之前一样,先从一张纯粹的噪点图像开始--图中每个像素都是随机天生的。
假设你想天生一张绿色的喷鼻香蕉图像,就将这张噪点图像和"绿喷鼻香蕉"的文本提示词一起输入到监督学习算法里。现在算法已经知道你须要天生一个绿色的喷鼻香蕉图像,它该当能够输出一张看起来像这样的图片。虽然喷鼻香蕉的形状不是很清晰,但你可以隐约看到中间有点像是绿色水果的形状。这是图像天生的第一步。
下一步,我们会利用之前天生的图片(输出B)作为新的输入(输入A),并再次添加"绿色喷鼻香蕉"的文本提示,以便天生一张噪点更少的图片。通过这个步骤,图片上的绿色喷鼻香蕉变得更加明显,只管还是有些模糊。我们再进行一次相同的步骤,这次它险些去除了所有噪点,直到我们end up with that picture of a noise。终极我们得到了一幅俊秀的绿色喷鼻香蕉图像。这便是扩散模型在图像天生上的运作事理。在这个神奇的过程中,创造俏丽图像的核心是监督学习。
感谢你坚持看完这个附加的视频。下周,我将带你深入理解更多利用天生式AI构建的运用,期待再次见到你。下期视频见。