量子位 宣布 | 公众年夜众号 QbitAI
现在,给视频添加字幕,又有了新玩法。
这便是Facebook、哥伦比亚大学等大学的新研究,共同开拓了一个框架——Vx2Text。
这个框架可以帮助我们,从视频、音频等输入内容中提取信息,再以人类可以理解的笔墨,天生字幕或者回答问题等。
并且,与之前的最新技能比较,Vx2Text在三个任务中均展现出最佳的性能。
Vx2Text究竟是什么?一起往下看。
技能事理
Vx2Text是从多模态输入(由视频、文本、语音或音频组成)中提取信息,再以人类可以理解的办法,天生自然措辞文本(例如:字幕、回答问题等)。
研究团队通过引入大型基准,来评估Vx2Text阐明信息和天生自然措辞的能力。
这些基准紧张包括:用于图像或视频字幕、问答(QA)和视听对话的数据集。
为了在这些基准测试中表现出色,Vx2Text必须完成几个目标:
从每个模态中提取主要信息;有效地组合不同线索,以办理给定的问题;以可理解的文本形式,将结果天生和呈现出来。并且,将这些目标嵌入一个统一的、端到真个可演习的框架中。
全体过程可以分为三步:
多模态输入及识别;将不同模态嵌入同一措辞空间;领悟多模态信息。△Vx2Text框架图解
详细而言:
输入及识别
Vx2Text吸收视频、音频和语音作为输入。利用特定模态分类器,来识别输入的声音或动作等,得到相应类别的文本信息。
嵌入
通过可区分标记化,将识别得到的不同模态的文本信息,嵌入同一措辞空间中,以便实行多模态领悟,实现端到真个演习。
多模态领悟,大略来说便是,将从文本、图像、语音、视频等多种形式的数据和信息,进行转换和领悟。
先前不同模态输入旗子暗记的组合方法,大多依赖于额外的跨模态领悟模块,繁重且打算本钱高。
而利用Vx2Text,无需设计专门的跨模态网络模块,这种设计不仅大略得多,还可以带来更好的性能。
领悟
采取通用的编-解码器措辞模型,即自回归解码器模型,来领悟多模态信息,以天生文本。
不同于以前的仅编码器模型,这一模型具有通用性,能直接适用于“不同模态天生文本”问题,无缝处理两种类型的任务,无需为每个任务设计专门的架构。
处理天生式任务,须要通过解码天生连贯的句子; 处理区分式任务,则需将候选答案集输入,在概率分布下,选择最高概率的答案。
实验
对Vx2Text在三个任务中的有效性进行评估:包括视频问答、视听场景感知对话和视频字幕。 分别利用三个基准数据集:TVQA、AVSD和TVC。
评估每种模态的主要性
利用不同的输入组合,评估各个模态对基于视频的文本天生性能的影响。结果表明:
在AVSD和TVQA数据集中,每种模态都有助于性能提升,对付AVSD尤其明显。在AVSD的所有指标下,增加视频模态的都会带来性能提升;TVQA数据集也表示这种趋势。此外,问答的历史记录对AVSD的性能,也起到十分积极的浸染。这表明模型在对话中,成功合并了先前问答的信息。可区分标记化的的有效性
将不同的模态领悟机制(包括:多模态特色嵌入、冻结标记化、可区分标记化),在AVSD和TVQA中的性能进行比较,得到结论:
与多模式特色嵌入比较,冻结标记化实现了更好的性能。可区分标记化通过优化全体端到端模型,进一步提高了这两项任务的性能,在很大程度上优于其他方案。天生模型的上风
对四个模型的准确性进行评估,得到结论:
对付所有大小的演习集,与去掉解码器的系统判别版本(Discriminative)比较,默认的Vx2Text模型(Generative)都更准确。此外,天生模型可以利用相同的模型进行多任务学习,无需变动架构。这样能够进一步提高准确性,尤其是对付小型演习集。与最新技能的比较
Vx2Text(这里利用冻结标记化,而非可区分标记化)与最新技能,在AVSD上进行比较,得到结论:
在带有和不带有字幕输入两种情形下,Vx2Text模型都取得了最好的效果。证明了这一模态集成大略方案的有效性。Vx2Text与最新技能,在TVQA上进行比较(数字代表Top-1准确性(%)),得到结论:
在HERO利用额外的样本进行预演习的情形下,Vx2Text仍旧实现了比HERO版本更好的性能。Vx2Text与最新技能,在TVC上进行比拟,得到结论:
在不该用额外样本进行预演习的情形下,Vx2Text展现出最佳的性能。定性结论
△AVSD验证集上的视听场景感知对话任务,Vx2Text天生答案示例
△TVC验证集上的视频字幕任务,Vx2Text天生文本描述示例
虽然输入内容中包含一些文本,例如:对话历史记录或语音记录,但天生的文本还包含了来自其他模态的信息。例如,上图中模型成功地识别了动作,例如,帮助站起来等。
实验表明:Vx2Text能够在多模态输入中,为视听场景感知对话和视频字幕,天生逼真自然的文本。
Vx2Text可以用于为录制的视频或流媒体视频添加字幕,以及做事YouTube和Vimeo等视频共享平台,依赖字幕以及其他旗子暗记来改进搜索结果的干系性。
作者
论文一作蔺旭东,目前是哥伦比亚大学打算机科学专业的博士生,紧张研究领域是嵌入学习、视频剖析和天生模型,本科就读于清华大学。这项研究是在其担当Facebook AI演习生时完成的。
△蔺旭东(来自其个人主页)
想要理解更多细节,可戳文末链接查看~
参考链接:
https://arxiv.org/abs/2101.12059
https://venturebeat.com/2021/02/02/researchers-Vx2Text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态