编辑:泽南、小舟
我们终于知道那些折磨人的乐谱是怎么来的了 —— 都是 AI 天生的。
有名偶像企划 LoveLive! 发 AI 论文了,是的没错。
最近,预印版论文平台 arXiv 上的一篇论文引起了人们的把稳,其作者来自游戏开拓商 KLab 和九州大学。他们提出了一种给偶像歌曲自动写谱的模型,更主要的是,作者表示这种方法实在已经运用过很长一段韶光了。
通过深度学习技能,AI 算法在图像分类,语音识别等任务上有了精良的表现,但在理解繁芜、非构造化数据方面,机器学习面临的寻衅更大,比如理解音频,视频,文本内容,以及它们产生的机制。物理学家费曼曾说过:「凡是我不能亲自觉明出来的,我就不是真正理解。」
而随着技能的发展,深度天生模型已在学界和业界得到了广泛运用。在如今的游戏开拓过程中,天生模型正在帮助我们构建各种内容,包括图形、声音、角色动作、对话、场景和关卡设计。
KLab 等机构提交的论文先容了自己的节奏动作游戏天生模型。KLab Inc 是一家智好手机游戏开拓商。该公司在线运营的节奏动作游戏包括《Love Live!
学院偶像季:群星闪耀》(简称 LLAS)已以 6 种措辞在环球发行,得到了上千万用户。已经有一系列具有类似影响的类似游戏,这使得该事情与大量玩家密切干系。在 LLAS 中,开拓者面临的寻衅是为不同歌曲天生乐谱,提示玩家在不同机遇点击或拉拽按键,这是节奏音乐游戏中所定义的寻衅。在一局游戏中,飘过来的按钮被称为音符,它们形成类似于乐谱的空间图案,与后台播放的歌曲节奏对应。一首歌曲存在不同的难度模式,从低级、中级、高等和专家到寻衅,繁芜度顺序递增。
相对其他音游,LLAS 虽然不怎么磨练反应速率,但机制相对繁芜得多在全部按准的条件下还有 buff、debuff、三种属性分别对应体力、暴击和分数,想要高分还须要在打歌时一直切换军队。
由于 LoveLive!
是一个有 12 年历史的企划,包含四个团体和数个小团体,个人还有角色歌,很多歌曲都会在游戏中涌现,设计对应的乐谱变成了一件极具寻衅的事情。随便一搜就上千首歌曲。
游戏开拓者表示,他们的做法是通过 AI 赞助的半自动化办法:先由 AI 天生乐谱,再由 KLab 的艺术家进行微调,另一种办法是 AI 天生低难度乐谱,游戏设计师在这个根本上设计高难度。
KLab 表示,他们利用的 GenéLive! 模型成功地降落了一半业务本钱,该模型已支配在公司日常的业务运营中,并在可预见的未来韶光里持续运用。
降落乐谱天生的本钱对付在线音游开拓者来说是一个主要寻衅,由于它这天常运营的瓶颈。KLab 提出的方法实现了只须要音频,就可以直接天生乐谱。
在研究过程中,开拓者们首先提出了 Dance Dance Convolution (DDC) ,天生了具有人类高水平的,较高难度游戏模式的乐谱,但低难度反尔后果不好。随后研究者们通过改进数据集和多尺度 conv-stack 架构,成功捕捉了乐谱中四分音符之间的韶光依赖性以及八分音符和提示节拍的位置,它们是音游中放置按键的较好机遇。
DDC 由两个子模型组成:onset(天生音符的机遇)和 sym(决定音符类型,如轻按或滑动)
目前正在利用的 AI 模型在所有难度的曲谱上都得到了很好的效果,研究职员还展望了该技能扩展到其他领域的可能性。
论文链接:https://arxiv.org/abs/2202.12823
KLab 运用深度天生模型来合成乐谱,并改进乐谱的制作流程,将业务本钱降落了一半。该研究阐明了如何通过专门用于节奏动作的多尺度新模型 GenéLive!,借助节拍等来战胜寻衅,并利用 KLab 的生产数据集和开放数据集进行了评估。
方法
此前,KLab 乐谱的天生事情流是在不考虑自动化的情形下形成的,险些没有达成明确的规则或数学优化目标。因此,该研究选择利用监督机器学习。到 2019 年底,KLab 已经发布了数百首歌曲的音频序列和相应的人工天生乐谱。
一方面,这个项目被哀求快速交付并起到帮忙的浸染;另一方面,项目的目标具有寻衅性,旨在改进 SOTA 深度天生模型。常日,研究新型神经网络架构须要大量的反复试验,这个过程须要六个月或更永劫光。
为理解决韶光上的问题,该研究组织了一个模型开拓团队和一个模型做事团队,通过与艺术家团队保持联系得到反馈,将其反响到模型开拓和做事中,并在第一韶光供应更新的模型,从而使他们保持同等。
GenéLive! 的根本模型由卷积神经网络 CNN 层和是非期影象网络 LSTM 层组成。对付频域中的旗子暗记,作者利用 CNN 层来捕获频率特色,对付时域利用 LSTM 层来完成任务。
GenéLive! 的模型架构。
在这里,卷积堆栈(conv-stack)的紧张任务是利用 CNN 层从 mel 频谱图中提取特色。conv-stack 包括一个具有批量标准化的标准 CNN 层、一个最大池化层和一个 dropout 层,激活函数是 ReLU。末了为了规范输出,这里利用了全连接层。
时域方面采取了 BiLSTM,供应前一个 conv-stack 的输出作为输入。为了实现不同的难度模式,作者将难度编码为一个标量(低级是 10,中级是 20,以此类推)并将这个值作为新特色附加到 convstack 的输出中。
Conv-stack 架构。
在演习数据方面,GenéLive! 利用了几百首早期的 LLAS 歌曲,《歌之王子殿下》的歌曲,以及音乐游戏引擎「Stepmania」中可公开访问的音乐和乐谱。
模型开拓
该模型是由 KLab 和九州大学互助完成的。两个团队之间须要一个基于 Web 的协作平台来共享源代码、数据集、模型和实验等。详细来说,该研究用于模型开拓的系统架构如下图所示。
模型做事
为了使乐谱天生程序可供艺术家按需利用,它该当方便艺术家自行利用而无需 AI 工程师的帮助。并且由于该程序须要高端 GPU,将其安装在艺术家确当地皮算机上并不是一个得当的选择。该模型做事系统架构如下图所示。
实验结果
为了度量该方法中每个组件的性能,研究者在「Love Live! All Stars」数据集上进行了溶解实验。
下表 3 的结果表明 GenéLive! 模型优于此前的 SOTA 模型 DDC。
为了评估节拍辅导的浸染,溶解实验的结果如下图 9 所示。
利用未修正版 conv-stack 演习模型和当前 GenéLive! 模型的结果差异如下图所示。
GenéLive! 模型一次性演习全部难度模式,为了查看这种演习办法的上风。该研究将其与每种难度模式单独演习的结果进行了比较,结果如下图所示。
LoveLive! 企划的活动范围包括动漫、游戏和真人偶像团体。音乐游戏《Love Live! School Idol Festival》自 2013 年开始运营,截至 2019 年 9 月在日本拥有超过 2500 万用户。新一代的游戏《Love Live! School Idol Festival All Stars》目前在环球已有上千万用户。
GenéLive! 的研究,说不定也能让音游在 AI 领域里火起来。