近日,视觉知识推理任务VCR(Visual Commonsense Reasoning)榜单又被刷新了。
VCR是华盛顿大学研究职员2018年提出的推理任务,是多模态理解领域最威信的排行榜之一。它不仅哀求模型识别出图中人物的属性和关系,还须要在此根本上,去进一步推理人物的意图等。
腾讯微视视频理解团队在多模态领域长期耕耘,这次以BLENDer单模型,夺得高分「81.6,86.4,70.8」,盘踞榜首。据团队先容,BLENDer研发韶光不到3个月。
百度微软曾称霸的VCR榜单被微视刷新
传统的视觉问答(VQA)任务紧张面向识别(recognition)层面的问题,例如,「一张图里有几个橘子?」
而VCR的目标是将识别提升到认知(cognition),例如「为什么人物4指向人物1?」,更进一步,打算机在第一步做出答案选择之后,还要在第二步阐明选择这个答案的情由(rationale)。如下图分别展示了这两步的问题和答案选项。
这就哀求机器同时理解图像中的视觉内容以及问题对应的文本内容。
目前,VCR榜单上的任务给出的场景图片有11万张,问题一共有29万个。而给出的问题,都须要对图片中的人物和场景进行一定程度的理解和推理,才能得到精确的答案。
正因如此,VCR任务对机器的多模态理解和推导能力提出了相称大的寻衅,是当前图像理解和多模态领域层次最深、门槛最高的任务之一。
在此之前,包括谷歌、Facebook、微软、百度在内的很多企业和团队曾参与VCR竞赛,但以往最好效果都是基于多模型领悟,包括百度(15个模型)、微软(10个模型)。腾讯微视的BLENDer单模型超越了此前榜单上的多模型提交结果,让这项技能有了更强的运用代价。
腾讯微视如何凭单模型霸榜?团队参赛成员先容到,BLENDer是在盛行的视觉-措辞Bert模型的根本上进行了改进。
△BLENDer第一阶段算法模型
演习紧张分为三个阶段:
以NLP BERT为出发点,采取150万张图像+文本,采取词语/物体掩膜等技能,进行预演习,使模型能够学习到图像和文本两个模态的语义信息和关联。在VCR数据集上进行类似第一阶段的预演习,使模型熟习VCR的图像和语料,为第三阶段的特界说务演习做准备。针对终极的视觉知识推理任务,进行微调演习。为了同时在VCR榜单哀求的三个任务上做到性能最优,腾讯微视在模型中额外加入了人物-物体的关系推理部分。该模型的速率和大小都很精良:BLENDer模型在运算速率方面,每秒钟可以推理50-60张图片。而且,这一个模型的大小约为1.3G,只相称于其他团队多领悟模型中的单个模型。
在模型演习的过程中,该团队也办理了很多难题。
例如,在第一和第二阶段的预演习,团队为每一个子任务设计了权重和演习参数能够自动调节的算法机制。让模型能够有效地从各个任务中学到有代价信息。
为了让模型能够更加对症下药地演习,团队设计了更有针对性的文本和图像的掩膜技能,提升了主要词汇和物体的预测精度。
而只是预演习效果好,还不足。在终极的任务演习时,模型又涌现了过拟合征象。为理解决过拟合的问题,团队用反向翻译技能对文本进行了扩增,还加入了对抗噪声进行演习。
腾讯微视团队还透露,目前团队还在对模型进行优化,也是为了日后更好地将模型运用到业务中。而BLENDer模型,还不是该团队的最优模型。
本次竞赛夺得榜首,得益于技能方案的创新、以及团队长期基于短视频业务场景所积累的海量跨模态数据。
微视语义理解团队输出的多项技能,已经运用在包括审核、推举、多媒体信息挖掘等多个微视业务场景中,这次的BLENDer方案授予了机器更强大的理解和认知能力,将进一步推动AI技能在短视频业务中智能交互场景的落地。
在更好地做事产品的同时,团队也操持向业界开源干系技能方案,助力多模态语义理解领域的技能研究和落地,进一步提高AI能力的通用性。
据理解,腾讯微视技能团队关于AI干系研究还有很多,也希望吸引更多技能精英人才加入。
阅读原文即可得到干系职位信息。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态