AI研习丨跨媒体内容理解技能

0 弁言

随着多媒体和打算机网络技能的不断发展，信息传播的载体逐渐由文本为主的形式发展为包含图像、视频、文本、音频等跨媒体形式。
国务院印发的《新一代人工智能发展方案》指出，须要研发视频图像信息剖析识别等干系技能并建立智能化监测平台，以知足社会综合管理、新型犯罪侦查、反恐等急迫需求。
Google、OpenAI 等著名企业也高度重视跨媒体内容理解，投入大量资源研发了 CLIP、DALL-E 等跨媒体大模型，引起了学术界与工业界的密切关注。
由此可见，跨媒体内容理解不仅是国家的计策需求，也符合企业的市场需求，具有主要的研究和运用代价。

然而跨媒体数据具有语义抽象、繁芜多变、多源异构等特点，使得跨媒体内容理解面临“异构鸿沟”和“语义鸿沟”两大难题。
“异构鸿沟”是指跨媒体数据的表征不一致，难以直接度量数据的相似度，导致跨媒体数据难以综合利用；“语义鸿沟”是指跨媒体数据的表征形式与人类认知之间存在巨大差异，导致打算机难以理解跨媒体数据的语义信息。
因此如何战胜“异构鸿沟”和“语义鸿沟”，使打算机精确理解跨媒体内容，实现跨媒体检索、推理和天生，是综合利用跨媒体数据并发挥其代价的关键，已经成为了研究职员关注和研究的热点。

跨媒体内容理解技能旨在对图像、视频、文本等跨媒体数据进行综合剖析与关联建模，实现跨媒体检索、推理和天生，在网络空间安全和媒体领悟等领域有着广阔的运用前景。
本文紧张先容近年来跨媒体内容理解技能的研究现状和进展，紧张包括四个方面：① 跨媒体表征学习，其关键在于打破由于跨媒体数据表征不一致导致的“异构鸿沟”问题，为检索、推理和天生等跨媒体任务供应表征根本；②跨媒体检索，其关键在于让打算机理解跨媒体数据的语义信息，实现基于语义的内容检索；③ 跨媒体推理，其关键在于使打算机在理解跨媒体数据语义信息的根本上，推理跨媒体数据中隐含的结论与事实；④ 跨媒体天生，其关键在于让打算机打破已有规则进行遐想与创造，实现跨媒体内容的相互天生。

AI研习丨跨媒体内容理解技能

1跨媒体表征学习

在现实生活中，图像、视频、文本等跨媒体数据常日是同时涌现的，例如在网页中，既有笔墨描述，也有与笔墨干系的图像、视频等，它们彼此之间存在着隐含的关联关系。
因此不同于对单一媒体数据的表征学习，跨媒体表征学习每每通过学习跨媒体数据间的关联关系来提升其表征能力。

基于上述思想，Peng 等（IEEE TMM 2018）提出了一种基于多粒度层级网络的跨模态关联学习方法 (Cross-modal Correlation Learning)，如图 1 所示，采取层级网络构造建模模态内和模态间的关联关系，并分为单模态特色表示学习和跨模态统一表征学习两个阶段。
在单模态特色表示学习过程中，通过领悟不同模态数据细粒度和粗粒度的多粒度特色表示联合优化模态内和模态间的关联学习；在跨模态统一表征学习过程中，提出多任务耦合关联学习，动态平衡模态内语义种别约束和模态间成春联系关系约束的学习过程，从而提高了跨模态检索的准确率。
Chi 等（IEEE TCSVT 2020）提出了对偶对抗分布网络（Dual Adversarial Distribution Network），通过跨媒体对偶天生对抗构造，实现跨媒体数据特色与统一表征的相互转换，挖掘跨媒体数据的语义信息和潜在构造信息，加强模型对不同种别数据的泛化能力；其次提出分布匹配策略和对抗媒体间度量约束，建模已知种别和未知种别间的语义关联，加强对未知种别数据的语义表征能力，提高了统一表征的媒体间关联和语义排序能力。
Peng 等（IEEE TMM 2019）认为，图像和文本之间的信息转换该当被视作一个完全的环路，可以通过闭环中视觉和措辞信息的相互浸染加强图像和文本之间的潜在关联。
因此，提出了跨媒体循环关联学习方法（Cross-modal Circular Learning），如图 2 所示，通过循环地进行图像到文本，以及文本到图像的相互天生学习统一表征。
通过这种循环演习办法，使得不同跨媒体任务相互促进，在提升模型天生能力的同时进一步提升了跨媒体表征学习的效果，在跨媒体检索、图像描述天生，以及文本到图像天生等多个跨媒体任务上均取得了性能提升。
针对表征学习的媒体可扩展性，Wang 等（IEEE TCSVT 2021）提出了一种媒体类型无关的表征学习方法，支持每种媒体数据独立学习判别性表征。
该方法将标签信息视为一种分外的媒体信息，引入标签解析模块得到标签语义表征以关联不同的媒体数据；同时，构建特定媒体的表征学习模块获取其语义共享表征。
当新增媒体类型时，以已经学习到的标签语义表征来勾引新增媒体数据的表征学习。
此外，该方法还设计了一个统一的分类器被用于不同媒体数据的表征学习模块，以促进不同媒体数据共享表征的语义对齐，提高了表征学习的有效性和灵巧性。
考虑到文本描述每每指出了图像中的辨识性信息，He 等（CVPR 2017）将文本信息引入到细粒度图像分类中，提出了视觉措辞联合学习（Combining Vision and Language），通过显著协同优化的视觉分支和卷积序列编码的文本分支，挖掘图像文本的语义关联和嵌入表示学习，打破单源信息表示的局限性，获取更好的细粒度表征。

2跨媒体检索

跨媒体检索是指将任意媒体数据作为查询，自动检索出与之具有相同语义的各种媒体类型的数据，实现图像、视频、文本平分歧媒体数据之间的交叉检索。
其面临着相似性度量、数据标注缺失落、数据跨域、检索速率慢等问题。

针对跨媒体相似性度量问题，Peng 等（IJCAI2018）提出了一种基于特定媒体语义空间建模的跨媒体相似性学习方法 (Modality-specific Cross-modal Similarity Measurement)。
该方法首先为每种媒体数据分别布局特定媒体的语义空间，并通过循环把稳力网络建模媒体内部的细粒度信息，以及空间高下文信息；然后通过基于把稳力机制的联合关联学习将其他媒体数据投射到该媒体的语义空间，打算在该媒体语义空间中数据间的相似度得分；末了通过动态领悟的方法对上述相似度得分进行领悟，充分学习不同媒体间不平衡的关联信息并挖掘不同媒体语义空间的互补性，提高了跨媒体检索的准确率。

针对数据标注缺失落的问题，Zhang 等（IEEE TCYB 2020）提出了基于天生式对抗网络的半监督跨媒体检索方法 (Semi-supervised Cross-modal Hashing by Generative Adversarial Network)，利用天生模型办理无标注数据难以利用的问题。
其紧张思想是通过对抗式演习，天生模型能够从无标注数据中筛选并构建伪标签样本，进而利用天生的伪标签样本促进判别模型的性能，提高了跨媒体检索的准确率。
进一步，Peng 等（IEEE TCYB 2022）提出了基于无监督视觉 - 文本关联学习的跨媒体检索方法(Unsupervised Visual-textual Correlation Learning)，通过目标检测、实体抽取等方法获取图像和文本中的语义观点以代替传统的标注信息；同时通过全局和局部两级把稳力机制进一步挖掘图像 - 文本中细粒度语义信息，建立图像中的实体与文本片段的关联关系，提高无监督条件下跨媒体检索的准确率。

针对跨媒体数据跨域问题，Peng 等（IJCV 2021）提出了基于多层次视觉 - 文本知识蒸馏的终生学习方法（Visual-textual Life-long Knowledge Distillation），在办理跨媒体检索跨模态问题的同时，还能够战胜跨域的寻衅。
针对跨媒体检索的跨模态问题，提出了多层次的视觉 - 文本循环神经网络，能够挖掘图像和文本中全局和局部的细粒度高下文信息，为跨媒体检索供应多层级的语义信息。
针对跨媒体检索跨域的问题，提出了基于终生学习的模型演习策略，设计了可扩展的模型构造，不同于现有方法须要对跨域数据演习多个模型，该方法仅须要演习域干系的少量参数，大大提高了模型的复用率，实现了单个模型支持多个域数据的跨媒体检索。

针对跨媒体检索速率慢的问题，研究职员提出通过学习跨媒体数据的哈希码，实现快速跨媒体检索。
Ye 等（ACM TOMM 2019）提出了一种基于多尺度关联挖掘的序列化跨媒体哈希（Multi-Scale Correlation for Sequential Cross-modal Hashing）方法，能够同时学习 5 种媒体数据的哈希码，实现了快速准确的跨媒体检索。
如图 3 所示，该方法首先提出了多尺度特色辅导的序列化哈希函数学习，能够利用跨媒体数据的不同尺度特色共同辅导哈希函数的学习，充分利用了不同尺度特色间的互补性，避免了单一特色非常导致的哈希码缺点；其次，通过多尺度特色间关联挖掘策略建模不同尺度特色之间的关联关系，为哈希函数学习补充了大量跨媒体数据间的关联信息，有效提高了哈希码的检索准确率。
Cao 等（ICMR 2016）提出了一种基于深度自编码器构造的跨媒体哈希方法（Cross Autoencoder Hashing），通过最大化具有相似标签的跨媒体数据的特色关联与语义关联，学习跨媒体哈希码用于检索。

近年来，受自然语言处理领域 BERT、GPT等预演习模型的启示，一些事情开始研究利用Transformer 等网络构造，利用基于大规模图像文本演习得到的预演习模型，在跨媒体检索上取得了显著的进展。
紧张包括单塔模型和双塔模型两类，单塔模型是指将不同媒体数据和特色输入到单个模型中以学习数据和特色间的关联；双塔模型是指将不同媒体数据和特色分别输入到不同模型，然后通过度量模型输出的相似性得分实现跨媒体检索。
例如，Radford 等（ICML 2021）提出了比拟式措辞图像预演习模型（Contrastive Language-Image Pre-training,CLIP），利用约 4 亿图像与文本对的跨媒体数据进行比拟学习，在零样本跨媒体检索任务上取得了准确率的大幅提升。

3跨媒体推理

跨媒体推理是一类涉及高层语义剖析的任务，哀求打算机能够综合剖析不同媒体类型的信息和线索，实现基于图像、文本等跨媒体内容的逻辑推理。
在研究与运用中衍生出许多不同的任务，包括视觉知识推理、跨媒体蕴涵推理等。

在视觉知识推理上，Wen 等 (IEEE TCSVT 2021)提出了基于知识知识的推理模型（Commonsense Knowledge based Reasoning Model），将源域任务中的知识迁移到目标域的视觉知识推理任务中，建立了源域编码器与目标域编码器之间的单元级别、层级别和把稳力级别的多级知识迁移机制，提高了目标域任务中编码器的表征映射能力。
该方法借助源域知识有效领悟目标域中的细粒度和全局推理线索，提升了视觉知识推理的准确率。
此外，Su 等（ICLR 2020）提出了预演习视觉措辞 VL-BERT 模型，通过文本语义与视觉线索对齐提升了在视觉知识推理的准确率。

在跨媒体蕴含推理上，Huang 等（IEEE TCYB 2021）提出了基于图文稠浊序列匹配的跨媒体蕴含推理方法（Visual-textual Hybrid Sequence Matching），首先通过基于影象把稳力的高下文编码方法，根据内容对蕴涵推理的主要程度为跨媒体数据进行高下文编码；然后通过跨任务和跨媒体的知识迁移方法，将跨媒体检索任务中的关联知识迁移至跨媒体推理任务网络，使得网络能够战胜“异构鸿沟”，综合利用多种媒体信息进行蕴涵推理，提升了跨媒体蕴涵推理的准确率。
进一步，Huang等（ACM TOMM 2020）还提出异构交互学习方法(Heterogeneous Interactive Learning)，通过利用跨媒体交互把稳力实现图像 - 文本、文本 - 文本的细粒度语义对齐，将图像和文本建模在同一张量空间中，提升了跨媒体蕴涵推理的准确率。

4跨媒体天生

跨媒体天生是指将特定内容从一种媒体形式转化为另一种媒体形式，须要打算机不仅能够理解跨媒体数据，还能够通过遐想与创造天生跨媒体数据，是打算机从“感知智能”迈向“认知智能”的一项极具寻衅的任务。
常见的任务包括视频描述天生、文本天生图像、文本天生视频等。

在视频描述天生上，Zhang 等（MMM 2019）提出了层次性视觉 - 措辞对齐方法（Attention GuidedHierarchical Alignment）。
该方法学习视觉内容和文本描述之间不同层次的隐含对齐信息，包括视觉工具 - 单词、视觉关系 - 短语、视觉区域 - 语句三种对齐信息；然后构建基于二元影象循环网络的编码器 - 解码器模型，通过二元影象循环网络同时编码全局语义信息和多层次对齐信息，并通过把稳力机制利用多层次的视觉 - 措辞对齐信息辅导深度解码器天生准确的文本描述语句。
针对长视频的文本描述天生问题，Wang 等（CVPR 2018）提出了一种非局部神经网络（Non-local Neural Network），通过建模当前位置旗子暗记与全局信息的关系，获取视频永劫序关系，以填补卷积神经网络局部连接打算的不敷，支持视频永劫光尺度信息建模。

在文本天生图像上，Yuan 等（IEEE TCSVT 2020）提出了基于类桥构造天生式对抗网络(Bridge-GAN) 的文本天生图像方法，如图 4 所示，通过学习一个具备可阐明性特色的过渡空间作为桥梁来提升天生图像与文本的内容同等性；同时通过一组三元互信息目标函数，对过渡空间的求解进行优化，从而增强视觉真实性与内容同等性。
此外，Yuan 等（IEEE TMM 2020）还提出基于跨任务知识蒸馏 (Cross-task Knowledge Distillation) 的文本天生图像方法，将知识从多个图像语义理解任务迁移到文本天生图像任务，采取多阶段的蒸馏过程：以图像分类模型为源域的蒸馏辅导天生模型学习物体的根本形状和颜色；以图像描述天生模型为源域的蒸馏辅导天生模型学习物体的细节属性信息。
通过多阶段的蒸馏学习能够帮助文本天生图像模型有效拟合真实数据的分布，更准确地理解输入文本中蕴含的语义信息，最终生成具备良好语义同等性与天生质量的图像。
此外，Zhu 等（CVPR 2019）将影象力机制引入到天生过程中，提出动态影象对抗天生网络（Dynamic Memory Generative Adversarial Networks），能够对天生图像进行动态调度，有效提高了天生图像的质量。

在文本天生视频上，Deng（IJCAI 2019）提出了一种自察递归卷积天生式对抗网络 (Introspective Recurrent Convolutional GAN)。
针对视频帧的连续性，提出递归卷积天生器将 2D 反卷积层与 LSTM影象单元相结合，提高了视频清晰度和连续性。
针对视频与文本的语义同等性，提出利用互信息打算视频和文本之间的语义相似度，并通过设计相应的语义约束函数提高天生视频与文本语义的同等性。
此外，Wu 等（arXiv 2021）提出了一个基于 3D Transformer 的编码器 - 解码器框架，通过 3D 把稳力机制同时考虑空间和韶光上的局部特色，提高了天生视频的质量。

五、结束语

本文先容了跨媒体内容理解在表征学习、检索、推理、天生等方面的干系研究现状与进展，然而上述研究方向仍旧具有许多值得进一步研究的问题，紧张有四个方面。

（1）在跨媒体表征学习上，如何实现跨媒体数据领悟自监督、弱监督等表征学习方法，建立通用的跨媒体的表征学习方法？

（2）在跨媒体检索上，如何办理现有大规模预演习模型的资源花费大的问题，在小模型上得到近似大规模预演习模型的性能？

（3）在跨媒体推理上，如何结合大规模的知识知识和领域知识图谱提高推理模型的通用性和专业性，并在特定领域中达到人类推理水平？

（4）在跨媒体天生上，如何应对 DALL-E 2 等大模型所带来的冲击，并提高在风雅化、专业化等需求情形下的视觉天生内容的质量？

（参考文献略）

选自《中国人工智能学会通讯》

2022年第12卷第7期

人工智能青年学者学术分享

每期AI知识网

AI研习丨跨媒体内容理解技能

戴瑾第四次工业革命中国能否争得主导权

通俗人若何抓住AI这个风口

每期AI知识网

AI研习丨 跨媒体内容理解技能

戴瑾 第四次工业革命中国能否争得主导权

通俗人若何抓住AI这个风口

AI研习丨跨媒体内容理解技能

戴瑾第四次工业革命中国能否争得主导权