图 2:人脸数字化的发展是当代人脸图像编辑工具的根本。这些编辑工具分为两类:身份修正和表情修正。除了利用 Photoshop 等工具手动编辑人脸以外,近年来涌现了很多自动化方法。最著名、最广泛的身份编辑技能是换脸(face swapping)。这些技能盛行的根源在于其轻量级特性,方便在手机上运行。facial reenactment 技能可以将源人脸的表情迁移到目标人脸,从而改变一个人的表情。
身份操纵是人脸假造的第二大类。与改变表情不同,身份操纵方法将一个人的脸换到另一个人的面部。因此,这个种别又叫换脸。随着 Snapchat 等消费者级别运用的广泛利用,这类技能变得盛行。DeepFakes 也可以换脸,但它利用了深度学习技能。只管基于大略打算机图形学技能的换脸可以实时运行,但 DeepFakes 须要为每一个视频对进行演习,这非常耗时。
本研究展示了一种方法,可以自动、可靠地检测出此类人脸操纵,且性能大幅超过人类不雅观察者。研究者利用深度学习的近期进展,即利用卷积神经网络(CNN)学习极强图像特色的能力。研究者以监督学习的办法演习了一个神经网络,可以办理人脸假造检测的问题。为了以监督的办法学习并评估人类不雅观察者的表现,研究者基于 Face2Face、FaceSwap 和 DeepFakes 天生了一个大规模人脸操纵数据集。
本文贡献如下:
论文:FaceForensics++: Learning to Detect Manipulated Facial Images
论文链接:https://arxiv.org/pdf/1901.08971.pdf
择要:合成图像天生和操纵的快速发展引起人们对其社会影响的巨大担忧。这会导致人们损失对数字内容的信赖,也可能会加剧虚假信息的传播和假新闻的捏造,从而带来更大的侵害。在本文中,我们检讨了当前最前辈人脸图像操纵技能结果的逼真程度,以及检测它们的困难性——不管是自动检测还是人工检测。详细来说,我们聚焦于 DeepFakes、Face2Face、FaceSwap 这几种最具代表性的人脸操纵方法。我们为每种方法各创建了超过50万张操纵过的图像。由此产生的公开数据集至少比其它同类数据集大了一个数量级,它使我们能够以监督的办法演习数据驱动的假造图像检测器。我们证明了利用额外的特定领域知识可以改进假造检测方法,使其准确性达到前所未有的高度,纵然在强压缩的情形下同样如此。通过一系列深入实验,我们量化了经典方法、新型深度学习方法和人类不雅观察者之间的性能差异。
3 数据集本文的核心贡献之一是 FaceForensics 数据集。这个新的大规模数据集使我们能够以监督的办法演习当前最佳的人脸图像假造检测器。为此,我们将三种当前最前辈的自动人脸操纵方法运用到 1000 个原始真实视频上(这些视频均是从网高下载的)。
表 1:FaceForensics 数据集中每一种方法干系图像的数量,包括演习、验证和测试数据集中的图像数量。
图 4:FaceForensics 数据集统计数据。VGA 表示视频分辨率为 480p,HD 表示 720p,FHD 表示 1080p。c 中 x 轴表示给定像素高度,y 轴表示序列数。
4 假造检测我们将假造检测视为被操纵视频每一帧的二分类问题。下面是人工和自动假造检测的结果。对付所有的实验,我们将数据集分成固定的演习、验证和测试集,分别包含 720、140 和 140 个视频。所有评估结果都是基于测试集中的视频报告的。
图 6:143 个参与用户的假造检测结果。准确率取决于视频质量,视频质量差则准确率会低落。原始视频上的检测准确率为 72%,高质量视频上的准确率为 71%,低质量视频上的准确率只有 61%。
4.2 自动假造检测方法
图 5:本文提出的特定领域假造检测流程:先用一种稳健的人脸追踪方法处理输入图像,然后利用特定领域信息提取图像中被脸部覆盖的区域,将该区域运送至一个演习好的分类网络,末了该网络的输出即是图像真伪的终极结果。
图 7:利用人脸图像假造的特定领域信息(即人脸追踪),所有利用架构在不同操纵方法上的二分类检测准确率。这些架构在不同的操纵方法上独立演习。
图 8:利用人脸图像假造的特定领域信息(即人脸追踪),本文提出检测器的所有变体在不同操纵方法上的二分类检测准确率。除了最右侧分类器利用完全图像作为输入,这些架构都利用人脸追踪器的追踪信息在完全数据集上演习。
图 9:利用人脸图像假造的特定领域信息(即人脸追踪),本文提出检测器的所有变体在不同操纵方法上的均匀二分类检测准确率。除了最右侧分类器利用完全图像作为输入,这些方法都利用人脸追踪器的追踪信息在完全数据集上演习。
图 10:本文提出的方法利用 XceptionNet 的检测性能依赖于演习语料库的大小。尤其是,低质量视频数据须要较大型的数据集。