编辑:Sia

一个模型+两个功能=仅从文本提示就能天生引人入胜的音乐和歌声。

你是否有过这样的体验,脑海时时冒出各种旋律,却因对乐器一窍不通,无法将这些创意开释出来?

本日 ,YouTube 和 Google DeepMind 强强联合推出的新做事能让你的创意和音乐实现无缝转化。

哼两句就能变歌曲还有国宝歌手帮你演绎音乐 DallE 2 时刻来了

在 Google DeepMind 供应的最繁芜的 AI 音乐天生系统 Lyria 帮助下,YouTube 正在测试新的音乐生成功能:

仅用文本提示或者大略哼唱几句,AI 就能急速天生一段引人入胜的音乐或歌曲。

最先推出的一个做事叫 Dream Track,可自动天生模拟某音乐人声音、风格的 30 秒音乐曲目,乃至包括歌词。

目前有 9 位盛行音乐音乐人参与了这项互助,他们是 Alec Benjamin、Charlie Puth、Charli XCX、Demi Lovato、John Legend、Papoose、Sia、T-Pain 和Troye Sivan,以美国和澳洲歌手为主,饶舌说唱歌手相对多一点。

部分互助音乐人:Troye Sivan, Demi Lovato, John Legend (从左到右)

澳洲国宝级歌手 Sia 也在互助之列

Dream Track 用户只需输入提示,比如笔墨输入 「佛罗里达州一个阳光明媚的清晨,R&B」( R&B ,节奏布鲁斯,一种曲风),再选择美国饶舌歌手 T-Pain :

立时就能得到一段 30 秒的音乐,里面歌手的声音是 T-Pain ,连歌词都替你天生了(当然,你也可以自己写):

视频加载中...

这是音乐人美国歌手 Charlie Puth 风格的作品:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

早在 9 月,YouTube 就宣告推出一项名为 Dream Screen 的做事,该功能可以自动天生视频和照片用作背景。
不过对付创作者来说,仅能自动天生视频是不足的,能为短片配上独特的背景音乐才算圆满。

现在, Dream Track 补充了这一缺失落——Lyria 天生包含该艺术家 AI 天生声音的原创 Shorts 配乐,供创作者利用。
这也有利于 YouTube 与「宿敌」TikTok 竞争用户。

YouTube Shorts 中试用 Dream Track

有短视频创作者抢先体验了一把 Charlie Puth 风格的创作,创作主题是她的宠物狗索尔:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

除了 Dream Track ,强劲的 Lyria 模型还被用来构建本日宣告的第二个工具,名为 Music AI。

这是谷歌和与艺术家、歌曲作者和制作人一起设计的一套工具,赞助用户音乐创作。
比如,随便唱一段旋律就能变成一段管弦乐演奏的曲子、将 MIDI键盘上的和弦变成真实合唱团的演唱或者给一段口技打击乐配上鼓点。

在这个视频中,制作人/词曲作者 Louis Bell 只用几句 balah~,外加一个文本提示(「萨克斯管独奏」),就自动天生一段萨克斯管曲目,切实其实不要太好听:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将一段哼唱转化为一段管弦乐:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将 MIDI 键盘和弦转换为真实的合唱团人声:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

将类似口技的打击节奏变成一段鼓循环:

试听链接:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

YouTube 音乐 AI 工具的用户界面

目前,YouTube 只挑选了约 100 位短视频创作者试用这些功能,并表示 Music AI incubator的参与者能在晚些时候体验到这些新工具。

在音乐天生领域,谷歌并不孤单。

Meta 在 6 月份开源了一款 AI 音乐天生器;Stability AI 也在 9 月推出了 Dance Diffusion,可以根据文本描述天生歌曲和声音效果。
像 Riffusion 这样的初创公司也在为他们在这一领域的努力筹集资金。
音乐界也在考试测验拥抱新技能。

不过,对付 AI 来说,创作引人入胜的音乐尤其具有寻衅性。
音乐包含大量的信息,包括每一秒的节拍、音符还有和声。
当天生长序列声音时,AI 模型很难在乐句、 副歌和章节段落之间保持音乐的连续性。
由于音乐常日同时包含多种声音和乐器,创作起来也比语音难得多。

Lyria 善于利用器乐和人声天生高质量的音乐,在转换和保持音乐延续性方面做的不错,能让用户更细致地掌握输出的风格和效果。

谷歌 DeepMind CEO 哈萨比斯表示,音乐天生的技能也是一个很好的例子解释大模型越来越具有「多模态」功能。
OpenAI 的 ChatGPT 的最新版本除了文本之外还可以处理音频和图像。
谷歌 DeepMind 正在开拓自己的强大人工智能模型,称为 Gemini,据传具有多模式功能。

不过,利用 AI 模拟艺术家的声音和风格的做法一贯令人担忧,也颇具风险。

今年早些时候,环球音乐集团提出版权侵权索赔,哀求从 YouTube 和其他平台上删除一首席卷各社交媒体平台的 AI 天生的歌曲「Heart on My Sleeve」,这首歌听起来像是 Drake 和 「盆栽哥」之间的互助——只管他们事实上根本没有参与这首歌。

DeepMind 在博客文章中表示,利用 Lyria 创建的音轨将带有 SynthID 水印,人耳听不到,也不会影响聆听体验。

水印可以在修正音轨时保留下来,因此纵然有人在音轨中添加了更多噪音,将其压缩成 MP3 文件,理论上仍旧可以分辨出是否包含来自 Lyria 的音频。

SynthID 通过将音频转换为二维可视化图谱来添加数字水印

打了水印音频的波形动画:https://mp.weixin.qq.com/s/hkMEhVUlGmHgjMEP7TumRw

发布这些新工具的几天前,YouTube 宣告了针对人工智能天生的深度假造的新内容辅导方针,旨在保护人们,并终极保护该平台的音乐行业互助伙伴。

参考链接

https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

https://www.theverge.com/2023/11/16/23963570/youtube-generative-ai-dream-track-music-tools-voice-clone