互联网上充斥着各种传授教化视频,这​些视频可以教会好奇的不雅观众各种知识,从如何烹制完美的煎饼到如何进行救生的海姆立克急救法。

但要精确定位长视频中某个特定动作发生的韶光和地点可能非常繁琐。
为了简化这一过程,科学家们正在考试测验教打算机实行这项任务。
空想情形下,用户只需描述他们想要的动作,AI 模型就会跳转到视频中该动作的位置。

然而,教导机器学习模型做到这一点常日须要大量经由精心手工标记的昂贵视频数据。

麻省理工学院 - IBM 沃森人工智能实验室的研究职员采取了一种新的、更有效的方法,即仅利用视频及其自动天生的记录来演习模型来实行这项任务,即时空根本。

想要在视频中寻找特定动作这种基于 AI 的方法可以帮你找到

研究职员用两种不同的办法教模型理解未标记的视频:通过查看小细节来确定物体的位置(空间信息),并查看更大的图景来理解动作发生的韶光(韶光信息)。

与其他 AI 方法比较,他们的方法可以更准确地识别包含多项活动的较长视频中的动作。
有趣的是,他们创造同时演习空间和韶光信息可以使模型更好地识别每个动作。

除了简化在线学习和虚拟培训流程之外,该技能还可以用于医疗保健领域,例如,可以快速找到诊断过程视频中的关键时候。

“我们冲破了试图同时编码空间和韶光信息的难题,而是将其视为两个独立事情的专家,事实证明这是一种更明确的信息编码办法。
我们的模型结合了这两个独立的分支,可实现最佳性能,”该技能论文的紧张作者 Brian Chen 说道。

Chen是哥伦比亚大学 2023 届毕业生,他在麻省理工学院-IBM 沃森人工智能实验室担当访问学生期间进行了这项研究,与他一起撰写这篇论文的还有詹姆斯·格拉斯,他是麻省理工学院-IBM 沃森人工智能实验室的高等研究员、打算机科学和人工智能实验室 (CSAIL) 口语系统小组卖力人;希尔德·库恩,麻省理工学院-IBM 沃森人工智能实验室成员,同时也是法兰克福歌德大学的附属机构;以及麻省理工学院、歌德大学、麻省理工学院-IBM 沃森人工智能实验室和 Quality Match GmbH 的其他职员。
这项研究将在打算机视觉和模式识别会议上揭橥。

全局和本地学习

研究职员常日利用人类注释了特界说务的开始和结束韶光的视频来教模型实行时空根本。

天生这些数据不仅本钱高昂,而且人类很难确定到底要标记什么。
如果动作是“煎饼”,那么这个动作是从厨师开始搅拌面糊时开始的,还是从她把面糊倒进锅里时开始的?

“这次的任务可能是烹饪,但下一次,可能是修车。
人们须要标注的领域太多了。
但如果我们能够在没有标签的情形下学习统统,那么这便是一个更通用的办理方案,”Chen说。

研究职员采取的方法是从 YouTube 等网站获取未标记的传授教化视频和随附的文本记录作为演习数据。
这些不须要任何分外准备。

他们将演习过程分为两部分。
首先,他们教机器学习模型查看全体视频,以理解特定时间发生的动作。
这种高等信息称为全局表示。

其次,他们教模型将把稳力集中在视频中发生动作的特定区域。
例如,在一个大厨房里,模型可能只须要关注厨师用来搅拌煎饼面糊的木勺,而不是全体柜台。
这种细粒度的信息被称为局部表征。

研究职员将一个附加组件添加到他们的框架中,以减轻阐述和视频之间涌现的不一致。
大概厨师先评论辩论煎饼,然后再实行操作。

为了开拓出更相符实际的办理方案,研究职员将重点放在了几分钟长的未剪辑视频上。
比较之下,大多数人工智能技能都是利用几秒钟的剪辑来演习的,这些剪辑被剪辑成只显示一个动作。

新的基准

但是,当他们评估他们的方法时,研究职员无法找到在这些较长的未剪辑视频上测试模型的有效基准——因此他们创建了一个基准。

为了建立基准数据集,研究职员设计了一种新的注释技能,该技能可以很好地识别多步骤操作。
他们让用户标记物体的交点,例如刀刃切开西红柿的点,而不是在主要物体周围画一个框。

Chen说:“这定义得更明确,加快了注释过程,减少了人力和本钱。

此外,让多个人对同一视频进行点注释可以更好地捕捉随韶光发生的动作,例如倒牛奶的流动。
所有注释者都不会在液体流动的同一点上进行标记。

当他们利用这个基准来测试他们的方法时,研究职员创造它比其他人工智能技能更能准确地定位动作。

他们的方法也更看重人与物体的互动。
例如,如果动作是“上煎饼”,许多其他方法可能只关注关键物体,比如柜台上的一叠煎饼。
相反,他们的方法关注的是厨师将煎饼翻转到盘子上的实际时候。

现有方法严重依赖人类标记数据,因此可扩展性不强。
这项研究通过供应新方法,利用事宜中自然涌现的语音在空间和韶光中定位事宜,朝着办理这一问题迈出了一步。
这种类型的数据无处不在,因此理论上它将是一个强大的学习旗子暗记。
然而,它常日与屏幕上的内容毫无关系,因此很难在机器学习系统中利用。
这项研究有助于办理这个问题,使研究职员将来更随意马虎创建利用这种多模态数据的系统,”密歇根大学电气工程和打算机科学助理教授 Andrew Owens 表示,他没有参与这项研究。

接下来,研究职员操持改进他们的方法,以便模型能够自动检测文本和阐述不一致的情形,并将焦点从一种模式切换到另一种模式。
他们还希望将他们的框架扩展到音频数据,由于动作和物体发出的声音之间常日存在很强的干系性。

波士顿大学打算机科学系教授 Kate Saenko 表示:“人工智能研究在创建像 ChatGPT 这样能够理解图像的模型方面取得了令人难以置信的进展。
但我们在理解视频方面的进展却远远掉队。
这项研究代表着我们在这个方向上迈出了主要一步。
”她没有参与这项研究。

论文链接https://arxiv.org/abs/2303.16990v2