编译| 程茜
编辑 | 李水青
智东西11月30日,本周一,爱丁堡大学的研究职员开拓了一种基于人工神经网络的模型,用以自动天生电影预报片。
电影制作公司发布的预报片,常日是其宣扬新电影时采取的匆匆销策略中的关键要素。为了让预报片的效益最大化,该短片该当简要总结电影的情节,以吸引人的办法传达其艺术风格和感情意境。
到目前为止,电影预报片紧张是由人类制作的。然而,最近一些打算机科学家开始探索这些宣扬片也可以由机器自动天生的可能性。
爱丁堡大学的研究职员将电影片段建模为图形,通过无监督学习算法来识别、天生电影预报片。
该模型在11月16日揭橥于arXiv上的一篇论文中提出。
论文链接:
https://techxplore.com/news/2021-11-automatically-movie-trailers.html
一、AI剪片,兼顾叙事构造和情绪
为了自动创建预报片,研究职员构建的算法模型须要先实行低级别的任务,如人物识别、动作识别和感情预测,还须要实行更高等别的任务,如理解事宜之间的联系及其因果关系,对特色及其动作进行推断。
考虑到任务的繁芜性,算法模型直接从电影预报片中获取所有这些信息将须要成千上万个样本,而这些样本的处理和标注也将是一个寻衅。
因此,以前的自动预报片天生方法仅仅集中在视听特色上是不足为奇的。
受人工编辑预报片的创造性过程的启示,为了更好地处理自动电影预报片天生的任务,爱丁堡大学的研究职员采取了一种自下而上的方法来天生预报片,他们将预报片分解为两个更大略且定义明确的子任务,即电影叙事构造的识别和对其传达的情绪的预测,他们创建的模型可以处理电影的一部分视频和电影剧本中的文本提取。
“我们利用剧本作为信息的来源,提取关于电影中的事宜、角色和场景的知识,然后利用这些知识在视频中确定值得发布预报片的镜头。”
“我们将电影建模为图形,镜头作为节点,用来表示图形之间的语义关系。”进行这项研究的三位研究职员Pinelopi Papalamidi、Frank Keller和Mirella Lapata在他们的论文中写道。
建立图片模型
“我们利用联合比拟演习来学习这些镜头关系,通过无监督算法模型浏览图片并天生预报片。”
此外,未标注的剧本文本语料库也比较随意马虎得到,可以用来对该模型进行预演习。
二、五大步骤,两个模型“研磨”剧本和影像
在这个算法模型中,对两个子任务的实现办法与传统的预报片产生办法不同。
首先是叙事构造的识别,即检索电影中最主要的事宜。电影编剧中普遍采取的理论认为,电影中有五种关键事宜,称为迁移转变点(TPs),如下图所示,这五个关键事宜分别为机会、操持改变、没有回报、紧张挫折、高潮。
电影叙事中的五个关键事宜
第二个子任务是感情预测,研究职员将其视为镜头和唤起的感情之间的关系近似值。
研究职员按照一种非监督的基于图形的方法来天生预报片。此外,镜头带有表示它们是否是关键事宜的标签,并带有表示感情强度,如积极或悲观的分数。
选取关键迁移转变点
该算法通过浏览利用电影建模天生的图形来创建预报片序列,然后由人工编辑进行审核和修正。
关键事宜迁移转变点识别和感情预测的任务都得益于对电影内容的较低层次的理解。
事实上,该算法可以利用现成的模块来识别字符和图形位置、记录动作和定位语义单元。然而,这种方法大大增加了演习和推理过程中的预处理韶光和内存需求,并且产生理解缺点的问题。
因此,研究职员提出了一种比拟学习机制,在这种机制中,利用只有在培训韶光才能得到的电影剧本中的有效信息。电影剧本可以揭示电影如何被分割成场景,电影角色基本情形,他们在和谁说话,他们在哪里,他们在做什么等内容,也便是电脑的“场景标题”和“动作线”可以阐明动作发生的位置、描述镜头看到的东西。
天生预报片
详细来说,研究职员构建了两个独立的神经网络模型,一个是基于剧本的文本网络,另一个是基于视频的韶光线网络,并利用比拟对它们进行联合演习。
结合起来,这两个神经网络可以识别电影中的关键韶光,并呈现在预报片中。
文本网络还可以通过自我监督的学习对大量的电影剧本进行预处理,而不必网络和处理相应的电影画面。实验结果表明,这种比拟演习方法是有益的,可以使预报片在内容和吸引力方面得到人们的好评。
研究职员提出的神经网络模型框架
三、41部预报片,迁移转变点评估更准确
研究职员通过一系列测试来评估该模型制作电影预报片的水平,结果显示它可以比其他用于天生电影预报片的基线方法更准确地识别电影中的迁移转变点。
此外,研究职员还利用他们的模型为41部门歧的电影制作了预报片。然后,他们在美国数据标注众包平台Amazon Mechanical Turk招募了一些不雅观众,讯问他们喜好看的电影预报片是哪些,然后将电影原有的预报片和通过他们的模型生产的预报片进行比拟,得到不雅观众的两种预报片的评价。
有趣的是,大多数受访者更喜好由他们的无监督模型创建的预报片,而不是由监督模型制作的预报片。也有部分预报片得到了较低的评价。
将电影建模为图片并进行大范围的打算,替代之前的单独选择镜头,有助于创建连贯的预报片。然而,同样的模式也存在确定,这种方法本身并不能担保高质量的预报片产出。
研究职员在他们的论文中补充说:“未来,我们希望更多专注于预测电影中的细粒度感情的方法,例如,悲哀、厌恶、胆怯、快乐。在这项事情中,由于缺少标记数据集,我们将积极、悲观感情视为感情的替代品。”
结语:加速预报片制作,情绪数据集仍欠缺
初步实验表明,Papalampidi、Keller和Lapata创建的模型可能还不能制作出完美的预报片,对付预报片是否剧透、感情通报的准确性问题还有待办理。将风雅的情绪知识从其他领域转移到预报片制作领域会导致不可靠的预测。未来的事情包括新的电影情绪数据集,以及基于文本和视听线索的情绪检测模型。
但该模型终极可能会被电影制作公司用来促进和加快预报片的制作。同时,该团队操持连续研究他们的技能,以进一步提高其生产的预报片的质量。
来源:Tech Xplore