视觉与自然措辞的结合是当前学界的研究热点之一,该方向有四个子课题值得关注:视觉关系检测(visual relation detection)、场景图天生(scenography generation)、指示表达(referring expression)和指示关系(referring relationships)。

视觉关系检测任务是指在检测图片中的物体框和类别的同时,检测出图片存在的关系,并与检测框对应起来。
视觉关系是对付图片信息的进一步理解,仅仅是检测框和物体种别信息,并不能非常充分地表达出一张图片所包含的信息。
相似的检测框位置和相同的物体种别,其表示的视觉内容可能截然不同。
为办理谓词检测问题,卢策吾(Cewu Lu)的事情利用两个物体联合框的特色进行谓词的分类,同时考试测验引入措辞上的先验以帮助谓词的判断。
VTansE这项事情不雅观察到了谓词所对应的视觉特色有很强的多样性,比如“carry”这个谓词在人拿书和货车运输物体这两个实例的视觉信息上具有非常大的差异。
为更好地建模谓词特色,VTransE将物体和谓词的特色都映射到低维空间,谓词则被视为在映射空间中主语特色到宾语特色的偏移。
DRNet的事情也同样创造了谓词视觉特色的多样性问题,以是提出利用主语和宾语框的掩膜作为相对空间关系特色,性能得到了很大的提高。

场景图天生任务与视觉关系检测任务基本相同,只是哀求网络终极输出为以物体为节点物体间关系为边的场景图,其本色也是须要检测出图片中的物体位置、种别以及物体之间的关系。
Danfei Xu等人先提出利用迭代式的信息通报方法来增强特色,在此前的事情中物体的分类和谓词的分类是相互独立的,而物体周围的高下文信息是能够帮助预测的,例如当知道图片中存在三元组“马在草地上”时,很有可能提高检测到人的可能性,也能增强预测“人骑马”这一关系的可能性。
为此该事情设计了物体图和关系图之间的信息通报办法,以增强两种类型的特色互换。
阿莱桑德罗·纽厄尔(Alejandro Newell)等人针对这一任务另辟路子,利用关联嵌入(Associate Embedding)的方法以端到真个办法从图片得到场景图。
物体的映射特色来自候选框的中央对应的视觉特色,关系的映射特色则是两个候选框中央的重点,终极在关联丢失函数的监督下实现三者的配对。
Neural Motifs事情重点关注了Visual Genome这一数据库关系的特点,它创造:(1)物体标签对关系标签有很强的预见性,但是反过来这一特点不存在;(2)数据库中超过90%的关系是非语义性的;(3)数据库中存在很多规律的样板。
基于以上的创造,Neural motifs将数据库的统计特性融入到网络预测中,同时利用物体之间的高下文信息来帮助检测。
Graph R-CNN将图卷积引入到该领域中,它认为我们所关注的场景图是稀疏的只有少数的物件间拥有我们所定义的关系。
物体间关系的存在高度依赖于物体的种别,物体的高下文信息对关系的分类也有很大帮助。
基于上述动机,Graph R-CNN设计了如下的天生流程:利用物体检测器从图片中提取区域特色;将所有的物体连接成个全连接的图;将密集连接的图剪枝为更稀疏的图;利用图卷积网络传播信息来帮助推断物体和关系的种别。

指示表达任务是指给定一句话和一张图片作为输入,哀求找出这句话在图中所指示物体的候选框。
ReferItGame是最早提出该任务的事情,它紧张先容了一种交互式的数据采集办法:用户1看到的是一张图片和图片中圈出的物体,须要供应一句话来指明该物体;用户2看到的则是相同的图片和用户1供应的一句话表达,须要找出这句话所指带的物体。
虞立成(Licheng Yu)在ECCV 2016上发布了基于MS COCO数据集格式的三个数据库:RefCOCO, RefCOCO+和 RefCOCOg。
在该事情中,他还提出了利用某个候选框区域的视觉特色和措辞特色与其他所有候选框的差值作为匹配特色。
揭橥在CVPR 2018上的MattNet创造大部分的措辞表达由三部分组成:主语物体、位置信息和关系,以是设计了三个特定的模块来判断特定候选物体在三个方面与自然措辞表达的匹配程度。
在主语物体模块利用的是检测特色以及视觉属性预测的特色,在位置信息模块紧张是利用物体自身的位置信息和同类物体间的相对位置信息,而在关系模块则利用了措辞特色与区域视觉特色的相似度。
三种类型的匹配得分比此前的方法更加充分地利用了各种维度的特色,得到了更好的性能。
王鹏(Peng Wang)等人在CⅤPR 2019上的事情则强调了物体与周围物件之间的关系,为了更好地对物体间的关系进行建模,它也利用了图的构造来进行信息的传播。
在该事情中,将关系分为物体的类内关系和类间关系,并且利用措辞信息得到把稳力权重来勾引图中的信息通报,末了最符合措辞表述的物体将得到最全面的信息,因而能够在匹配过程中得到最高的匹配得分。

人工智能研究热点问题计算机视觉和自然措辞处理

与指示表达任务不同,指示关系任务利用<主语,谓语,宾语>的三元组作为输入而不是自然措辞表达,哀求网络输出。
该任务的核心是利用视觉关系来区分图片内的不同实体,相较于指示表达任务,它打消了自然措辞的滋扰,更易于创造模型缺点预测的缘故原由。
在指代关系(Referring Relationships)的论文中设计了基于把稳力转移的迭代模型。
受到生理学里关注点移动理论的启示,该事情为每个谓词设置了卷积核来分别学习主语物体到宾语物体以及宾语物体到主语物体的把稳力转移,这样在得到主语和宾语物体的初始把稳力后,则可利用主语物体对应的把稳力争加上谓词所对应的把稳力转移,得到宾语物体的把稳力争,对宾语而言同样也可得到主语的把稳力争。
经由几次迭代更新,终极得到了主语和宾语的输出。

作为深度学习领域的两个主要分支——打算机视觉以及自然措辞处理,二者的紧密结合可以获取更深层的信息理解与认知,也更符合人类大脑对付信息的处理办法。
目前,视觉结合自然措辞已经在图片问答、看图说话、关系预测等传统任务上取得了不错的成果。
随着打算机视觉和自然措辞处理的各自领域内的发展,二者也将展现出全方位、深层次的互换与互动,逐步发展成为新的研究方向。