对付 AI 系统来说,将措辞与视觉联系起来是它须要面对并学会办理的基本问题,例如在进行图像的检索时,AI 系统须要既能识别图像,也能识别措辞,并将二者干系联起来。

对付这类须要 AI 系统识别不同种类或形式的信息来源的任务中,就须要多模态机器学习(MML/Multimodal Machine Learning)来发挥浸染。
所谓模态,指的是一种信息的来源或形式,例如笔墨、图像、视频、音频等都是模态。
多模态机器学习是指利用机器学习来处理多种模态的信息。

近些年来,在多模态机器学习领域中,多模态图像措辞转换器(Multimodal image–language transformers)已经取得了深刻进展,尤其在办理各种须要微调的任务,如视觉问答、图像检索中发挥了关键性浸染。

但是,在既须要处理图像又须要处理措辞文本的多模态机器学习任务中,有一类问题对付多模态图像措辞转换器来说尤其棘手,那便是对文本中的动词的理解。
例如哀求 AI 系统来在图像中区分辩认找出“踢球”和“抛球”这两种情景。
在这一任务中,AI 系统不仅须要识别出图像中的“球”这一工具,还须要识别图像中不同工具之间的关系。

DeepMind评估AI多模态图像措辞转换器在看图理解中对动词的识别力

为了评估近年来多模态图像措辞转换器的预演习水平,尤其是在“看图理解”中对付上文所说的动词的识别能力。
近日,DeepMind 开拓出一套方法,并引入了名为 SVO-Probes 的“图像-句子对” 数据集,来评估不同 AI 系统的多模态预演习模型对付动词的理解水平,尤其是理解这些 AI 系统多模态转换器的预演习模型在结合措辞文本来识别图像时,到底是既能够识别中图片中的物体、也能区分中图像中的动作,还是只能够识别出图中的物体。

为了达到这一目的,DeepMind 建立的 SVO-Probes 数据集包含了 48000 个图像-句子对,可以测试 AI 系统对 447 个动词的理解,这些动词要么是视觉可以区分的,要么是在预演习数据中常见的,例如许多观点字幕数据集。
这个数据集中的每个句子都可以分解成 一个 <主语、动词、宾语> 三元组,也便是 SVO 三元组,并分别配对有与句子描述的内容符合和不符的图像,它们在是实验等分别被称为“正实例图像” 和 “负实例图像”。

图|评估多模态措辞图像转换器对付动词的识别能力的 SVO- Probes 数据集中的图像-句子对(来源:DeepMind)

上图显示了图像-句子对的几个例子,以左上角的图像-句子对为例,分别显示了与句子“孩子、过、马路”符合的正示例图像,以及与“女士、过、马路”不符的负示例图像,通过这一对可以测试 AI 系统识别图中的工具——也便是名词的能力;而上方中间的图像-句子对,则分别显示了”人、唱歌、演唱会上“ 的正示例图像和”“人、舞蹈、演唱会上“ 的负示例图像。
通过这一对就可以既测试 AI 系统识别图中的名词的能力,也能测试 AI 识别动词的能力。

在实验中利用这一 SVO-Probes 数据集以零样本的办法对 AI 预演习模型进行评估之后,DeepMind 的工程师创造,比较名词等其他词性,预演习模型在须要动词理解的情形下缺点率要高很多。

下面的条形图详细解释了测试的结果。
标准多模态转换器模型经由测试后总体准确率达到 64.3%,这也显示了 SVO- Probes 数据集确实具有寻衅性。
而这一 AI 模型在对付主语和宾语判断的准确率分别为 67.0% 和 73.4%,但是对付动词判断的准确率却低落到 60.8%。
这一结果表明,动词识别确实对 AI 系统模型具有寻衅性。

此外,该公司的工程师们还进一步总结调查了哪些类别的动词对付这些 AI 预演习模型尤其具有寻衅性。
结果创造,像“抓”这样的运动性动词以及“带领”这样在不同类型的语境中常常涌现的动词对付 AI 来说更随意马虎。
而 AI 模型判断的精确率最高的动词有“打斗”“包围”“滑雪”“参加”等;而缺点率最高的几个动词有“切”“辩论”“断”等。

图|多模态机器学习的图像措辞转换器对付 SVO-Probes 数据集进行判断测试之后的结果(来源:DeepMind)

值得一提的是,当工程师们对哪些模型架构在 SVO-Probes 数据集上的表现更好这一问题进行探索时,他们惊异地创造,比较图像建模能力更强的标准图像措辞转换器模型,那些图像建模较弱的模型反而表现更好。
对这一与直觉相反的创造的阐明的一个假设是,标准转换器模型在图像识别方面可能有些“过度演习”了。

-End-

参考:

https://deepmind.com/research/publications/2021/Probing-Image-Language-Transformers-for-Verb-Understanding

https://aclanthology.org/2021.findings-acl.318.pdf