编译:ronghuaiyang
导读如果人工智能是一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
Yann Lecun在他的演讲中引入了“蛋糕类比”来解释自监督学习的主要性。虽然这个类比是有辩论的,但我们也已经看到了自监督学习的影响,在自然措辞处理领域最新发展(Word2Vec,Glove, ELMO, BERT)中,已经接管了自监督,并取得了最佳的成果。
“如果人工智能是一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习(RL)。”
出于对自监督学习在打算机视觉领域的运用的好奇,我通过Jing等人的一篇近期调研论文查阅了已有的关于自我监督学习在打算机视觉领域运用的文献。
这篇文章是我对自监督学习中问题模式的直不雅观总结。
关键的思想为了利用监督学习,我们须要足够的标记数据。为了得到这些信息,人工标注器须要手工标记数据(图像/文本),这是一个既耗时又昂贵的过程。还有一些领域,比如医疗领域,获取足够的数据本身便是一个寻衅。
这便是自监督学习发挥浸染的地方。它提出了以下问题来办理这个问题:
我们能否以这样一种办法来设计这个任务,即我们可以从现有的图像天生险些无限数量的标签,并利用这些标签来学习图像的表现形式?
我们通过创造性地利用数据的某些属性来代替人工标注块来建立监督任务。例如,在这里,我们可以将图像旋转0/90/180/270度,而不是将其标记为猫/狗,并演习一个模型来预测旋转。我们可以从数百万张免费供应的图像中天生险些无限数量的演习数据。
已存在的创造性方法
下面是各种研究职员提出的利用图像和视频的属性并以自监督的办法学习表示的方法。
从图像中学习
1. 图像的着色
形式:
利用数以百万计的图像灰度化来准备成对(灰度,彩色)图像。
我们可以利用一个基于全卷积神经网络的编译码器构造来打算预测和实际彩色图像之间的L2丢失。
为理解决这个问题,模型必须理解图像中涌现的不同物体和干系部分,这样它才能用相同的颜色绘制这些部分。因此,表示学习对下贱任务很有用。
论文:Colorful Image Colorization | Real-Time User-Guided Image Colorization with Learned Deep Priors | Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification
2. 图像超分辨率
形式:
利用图像下采样的办法准备演习对(小的,缩放的)。
基于GAN的模型如SRGAN在此任务中很受欢迎。天生器获取低分辨率图像并利用全卷积网络输出高分辨率图像。利用均方偏差和内容丢失来仿照类人质量比较,对实际天生的图像和天生的图像进行比较。二进制分类鉴别器获取图像并对其进行分类,判断它是实际的高分辨率图像(1)还是假天生的超分辨率图像(0)。这两个模型之间的相互浸染导致天生器学习天生具有风雅细节的图像。
天生器和判别器都学到了可以用于下贱任务的语义特色。
论文:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
3. 图像修复
形式:
我们可以通过随机去掉图像中的某个部分来天生成对的演习图像(破坏的,复原的)。
与超分辨率类似,我们可以利用基于GAN的架构,在此架构中,天生器可以学习如何重构图像,而discriminator则可以将真实图像和天生的图像分开。
对付下贱任务,Pathak等人表明,在PASCAL VOC 2012语义分割的比赛上,天生器学到的语义特色比较随机初始化有10.2%的提升,对付分类和物体检测有<4%的提升。
论文:Context encoders: Feature learning by inpainting
4. 图像拼图
形式:
通过随机交流图像块天生演习对
纵然只有9个小块,也是个有362880个可能的谜题。为了战胜这个问题,只利用了可能排列的一个子集,例如具有最高汉明间隔的64个排列。
假设我们利用如下所示的重排来变动图像。我们用64个排列中的第64个排列。
现在,为了恢复原始的小块,Noroozi等人提出了一个称为高下文无关网络(CFN)的神经网络,如下图所示。在这里,各个小块通过相同的共享权值的siamese卷积层通报。然后,将这些特色组合在一个全连接的层中。在输出中,模型必须预测在64个可能的排列种别中利用了哪个排列。如果我们知道排列的办法,我们就能办理这个难题。
为理解决拼图问题,模型须要学习识别零件是如何在一个物体中组装的,物体不同部分的相对位置和物体的形状。因此,这些表示对付下贱的分类和检测任务是有用的。
论文:Unsupervised learning of visual representations by solving jigsaw puzzles
5. 高下文预测
形式:
我们随机选取一个图像块以及其附近的一个图像块来组成演习图像对。
为理解决这个文本前的任务,Doersch等人利用了类似于拼图游戏的架构。我们通过两个siamese卷积神经网络通报图像块来提取特色,连接特色并对8个类进行分类,表示8个可能的邻居位置。
论文:Unsupervised Visual Representation Learning by Context Prediction
6. 几何变换识别
形式:
我们通过随机的旋转图像来天生有标注的图像(旋转图像,旋转角度)。
为理解决这个文本前的任务,Gidaris et al.提出了一种架构,个中旋转后的图像通过一个卷积神经网络,网络须要把它分成4类(0/90/270/360度)。
虽然这是一个非常大略的想法,但模型必须理解图像中物体的位置、类型和姿态才能完成这项任务,因此,学习到的表示方法对后续任务非常有用。
论文:Unsupervised Representation Learning by Predicting Image Rotations
7. 图像聚类
形式:
把聚类的结果作为图像的标签天生演习图像样本和标注。
为理解决这个预备任务,Caron et al.提出了一种称为深度聚类的架构。在这里,首先对图像进行聚类,把聚类出的种别用作分类的种别。卷积神经网络的任务是预测输入图像的聚类标签。
论文:Deep clustering for unsupervised learning of visual features
8. 图像合成
形式:
通过利用游戏引擎天生合成图像并将其调度为真实图像来准备演习对(图像,属性)。
为理解决这个预备任务,任等人提出一个架构,利用共享权值的卷积网络在合成和真实图像上进行演习,然后鉴别器学会分类合成图像是否是一个真正的图像。由于对抗性,真实图像和合成图像之间的共享表示变得更好。
从视频中学习
1. 视频帧顺序识别
形式:
通过打乱视频中的视频帧来天生演习对(视频帧,精确的顺序)。
为理解决这个预备任务,Misra等人提出了一个架构,个中视频帧通过共享权重的ConvNets通报,模型必须确定帧的顺序是否精确。在此过程中,该模型不仅学习了空间特色,还考虑了韶光特色。
论文:Shuffle and Learn: Unsupervised Learning using Temporal Order Verification
英文原文:https://amitness.com/2020/02/illustrated-self-supervised-learning/