作者:Oran Gafni、Lior Wolf、Yaniv Taigman机器之心编译参与:Panda、张倩
人脸识别正得到越来越广泛的运用,但有时我们希望在网上发布自己视频的同时又不被各种人脸识别软件识别出来。近日,Facebook AI 研究所提出了一种可以让你在人脸识别软件面前「隐身」的方法。这种方法会对视频中的人物面部特色进行修正,修正后的人脸与原人物看起来高度相似,但 AI 却识别不出修正后的视频人物,效果堪比整容。
经由修正的影视片段。左:原视频;右:用 Facebook 的方法修正后的视频。
经由修正的名人访谈片段。左:原视频;右:用 Facebook 的方法修正后的视频。
论文链接:https://research.fb.com/wp-content/uploads/2019/10/Live-Face-De-Identification-in-Video.pdf?
在面向消费者的图像和视频运用中,人脸相较于其它所有目标而言长短分分外主要的。由于人脸技能既很有用,又会产生很大影响,因此存在很多道德上的担忧。人脸识别可能导致隐私受损,而人脸更换技能则可能被缺点地用于创建误导人的视频。 Facebook 的这项研究关注的重心是视频身份肃清(video de-identification),这个视频过滤运用既须要优于之前最佳水平的技能进步,而且在实质上是向善的。该运用须要创建出类似长相的人的视频,使得被感知的身份发生改变。这种技能是很有用的,比如能让用户在公共论坛上匿名地发布看起来很自然的视频,并防止人脸识别技能认出他们。 视频身份肃清任务的难度很高。视频须要得到无缝式的修正,进而实现身份转变,同时又不能导致闪烁或其它视觉伪影或畸变,而且还要担保其它元素保持不变,如图 1 所示。这些成分包括姿势、表情、嘴唇位置(对应未经改变的语音)、遮挡、光照和阴影、动态。
图 1:视频身份肃清的结果,展示了不同的姿势、表情、光照条件和遮挡情形。这里展示了成对的源帧(第一行)和输出帧(第二行)。个中高层面特色(鼻、眼、眉毛和嘴型)完成了修正,同时姿势、表情、嘴唇位置、光照和肤色信息得到了保留。 作者表示,其它文献中的方法仅限于操作静态图像,而且是通过数据集中的脸来更换给定的脸,Facebook 的这种新方法则能处理视频,还能天生全新的脸。实验表明,这种方法在各种无限制的视频上都有令人信服的表现,能得到看起来很自然的视频。经由渲染后,视频中的人的外表看起来与原始视频中的人近似。但当前最佳的人脸识别网络却无法识别视频中人的身份。作者还对人类不雅观察者进行了类似的实验,结果表明:纵然不加韶光限定,人类也无法认出哪个是修正后的视频。 这种新方法包含了相称多的创新,个中包括一种全新的编码器-解码器架构。在该架构中,作者将为实行人脸识别而演习的网络的表征层的激活与隐蔽空间连接了起来。作者表示,这是首个利用已有分类器的表征来增强自动编码器的研究,这能实现对演习阶段未曾见过的新人的前向处理。此外,这也是首个引入了一种新型吸引器-排斥器感知丢失(attractor-repeller perceptual loss)项的研究。这个丢失项能将中低层面的感知项与高层面的感知项区分开。个中前者是用于将输出帧绑定到输入帧,而后者则是用于拉远身份之间的间隔。在这种全新的架构中,向隐蔽空间注入表征能让网络创建的输出符合这个繁芜的标准。
这个网络的另一个独占特性是其输出既是图像,也是掩码(mask),它们会以一前一后的办法被用于重修输出帧。这种方法的演习利用了一种特定的数据增强技能,该技能有助于网络的映射过程纳入语义信息。 此外,作者利用的丢失项还有重修丢失、边缘丢失和对抗丢失。
方法 这项研究提出的新架构基于对抗式自动编码器,并与一个经由演习的人脸分类器进行了耦合。通过将自动编码器的隐蔽空间与人脸分类器的表征层连接到一起,能够得到一个丰富的隐蔽空间,个中既嵌入了身份信息,也嵌入了表情信息。这种网络的演习办法是反事实式的,即其输出在一些关键方面不同于输入,而这些关键方面可通过条件来设定。因此,这生平成任务涉及高度的语义信息,要成功完成这一任务,不能利用常规的重修丢失。 在这种身份肃清任务中,作者会利用一张目标图像,这可以是视频中的人的任何图像。然后该方法会拉远输出视频的人脸描述量与该目标图像的人脸描述量之间的间隔。这有助于该方法的运用,使其能被运用于实时视频。在实验中,作者没有利用输入帧,以展示该方法的通用性。为了编码目标图像,作者利用了一个经由预演习的人脸分类器 ResNet-50 网络,该网络的演习是在 VGG-Face2 数据集上完成的。 实验的测试过程类似于人脸交互文献中的步骤,如下:(a)利用 dlib 人脸检测器 [21] 提取一个方形边界框;(b)利用 [18] 的方法检测出 68 个面部点;(c)利用到均匀人脸的估计的相似性变换(比例、旋转、平移)提取一个变换矩阵;(d)将这个估计的变换运用于输入人脸;(e)将变换后的人脸与目标图像的表征一起传入新提出的网络,得到一张输出图像和一个掩码;(f)利用上述相似性变换的逆运算将该输出图像和掩码投射回来;(g)根据变换后掩码的权重,通过在每个像素根本上线性稠浊输入和网络的经由变换的输出图像,天生一个输出帧;(h)在通过面部点的凸包(convex hull)定义的区域中,将结果领悟进原始帧。
演习阶段实行的步骤如下:(a)对人脸图像进行畸变和增强操作。这可通过利用随机缩放、旋转和弹性变形来完成;(b)将畸变后的图像与目标图像的表征一起输入该网络。在演习期间,作者选择的是未经畸变的同样的图像。(c)将掩码输出(在上面的 g 步骤打算得到)与无畸变输入的线性组合传入判别器。这种稠浊技能将不才面谈论。(d)将丢失运用于该网络的掩码和图像输出以及有掩码的输出。下面会详细先容。 把稳,该网络的演习办法和利用办法之间是存在差异的。不仅在演习时不会刻意在视频上完成演习,而且目标图像的选择办法也不同。在演习期间,作者是从演习图像本身提取身份,而不是从独立的目标图像提取。但这种方法依然能很好地泛化,能在无限制的视频上实行真实任务。 网络架构
图 2:(a)网络架构,其根本包含一个预演习的人脸识别网络。(b)所利用的多图像感知丢失示意图,其利用了同一个人脸识别网络的两个副本。 图 2(a) 展示了网络架构。编码器由一个卷积层构成,其后跟有五个利用了实例归一化的有步幅深度可分卷积。之后再利用一个单个全连接层,再连接上目标人脸表征。解码器则由一个全连接层构成,其后是扩大(upscale)模块和残差模块构成的一个 lattice,末了是用于输出图像的 tanh 激活函数以及用于掩码输出的 sigmoid 激活函数。每个扩大模块都由一个 2D 卷积构成,其过滤器数量是输入通道大小的两倍。经由实例归一化和 LReLU 激活之后,激活会被重新排序,使得宽度和高度更加,同时通道大小减半。每个残差模块输入与 Conv2D-LReLU-Conv2D 链的输出求和。 个中还利用了一个低容量的 U-net 连接(32x32x1)以放松自动编码器的瓶颈限定,从而使网络更侧重于编码与传输干系的信息。这个连接的大小不超过瓶颈大小(1024),而且由于输入图像的畸变,这能防止自动编码器在演习阶段早期坍缩成大略的重修自动编码器。 判别器由四个带步长的卷积构成,它们利用了 LReLU 激活,并且除第一个卷积外都利用了实例归一化。之后利用一个 sigmoid 激活的卷积,以得到单个输出。 该网络有两个版本:一个天生 128×128 图像的低分辨率版本,一个天生 256×256 图像的高分辨率版本。个中高分辨率版本的解码器经由简化和扩大,包含 6 个扩大模块与残差模块构成的 lattice。除非另有解释,否则下面给出的实验都是用高分辨率模型完成的。 实验
图 3:视频身份肃清的结果示例。图中给出了原始帧、经由转变的帧和目标帧。经由修正的帧看起来与原始帧类似,但其身份完备不同。 为了测试这种方法的结果是否自然,作者用人类不雅观察者对结果进行了考验。只管人类不雅观察者(n=20)完备清楚这些视频经由了若何的修正,但人类的表现仍靠近随机乱选,他们的均匀成功率为 53.6%(SD=13%),见表 2(a)。
表 2:(a)视频用户研究——用户区分真实视频与经由修正的视频的成功率,不管是低分辨率模型还是高分辨率模型。靠近 50% 更好。(b)根据静态图像用户研究,每一列都是一个不同个体。第一行:相册图像,即哀求用户选择的身份来源的相册图像;第二行:输入图像;第三行:第二行图像经由身份肃清后的版本。(c)识别这五个人的真实图像的稠浊矩阵(对照组)。(d)基于身份肃清后的图像,识别结果的稠浊矩阵。 人们可以不该用人脸线索就识别出熟习的身份。为了确定在环绕一个人脸身份给定相似的语境(头发、性别、族裔)时,被感知的身份会以一种险些不可能落实的办法发生变革,作者利用来自同一档电视节目的同一族裔和相似发型的五个人的图像进行了实验。他们网络了两组图像:参考图像(相册)和源图像。作者利用新提出的方法对源图像进行了修正,并也将它们用作目标,见表 2(b)。从表 2(c) 的稠浊矩阵可以看到,用户可以基于源图像轻易识别出精确的相册图像。但是,如表 2(d) 所示,在肃清了身份之后,答案与真实身份的干系性很小。 下表 4 给出了自动身份识别的结果,个中对低分辨率和高分辨率模型均进行了测试。
表 4:在包含 54000 人的数据集上识别精确的结果(SD 是指标准差)。评估是在预演习的 LResNet50E-IR ArcFace 网络上完成的。 下表 5 给出了给定一个人的身份肃清 LFW 图像对的结果(身份肃清运用在每对图像的第二张图像上)。
表 5:在 LFW 基准上的结果,利用的模型是在 VGGFace2 或 CASIA-WebFace 上演习的 FaceNet。结果是在误报率为 0.001 时的精确率。下图 4 比较了新方法与 [31] 的结果。
图 4:(a)来自 [31] 的输入图像,(b)新方法的结果,(c)[31] 的结果。新方法保持了表情、姿势和光照条件。此外,新方法没有将同一新身份分配给不同的人。 为了凸显新方法在拉远身份间隔的同时坚持像素空间相似性的能力,作者也比较了 [41] 的方法。
图 7:与 [41] 的比较(来自该论文的示例图像)。(a)原始图像(也被用作新方法的目标)。(b)新方法天生的结果。(c)[41] 的结果。(d)[41] 利用的目标。 作者比较了两种方法得到的身份肃清图像与原始图像之间的间隔(下表 3),结果表明新方法得到的像素差异更小,同时人脸描述量的间隔又更大。
表 3:对付图 7 中的图像,原始图像与身份肃清图像之间的间隔。 下图 8 给出了与 [49] 的结果的比较。
图 8:与 [49] 的比较。 下图 5 给出了与 [43,44] 的结果比较。
图 5:(a)来自 [43, 44] 的输入图像,(b)新方法的结果,(c)[43] 的结果(第一行),[44] 的结果(第二和三行)。 为了进一步展示新方法的稳健性,作者还在来自 [36] 的非常困难的输入上直接应用了新提出的方法。如下图 6 所示,纵然光照条件不佳,新方法仍能有稳健的表现。
图 6:在 NIST 人脸识别寻衅赛 [36] 中非常困难的样本上运用身份肃清的结果。