国内首款AI音乐大年夜模型核心技能首公开爆改霉霉周杰伦效果惊艳

【新智元导读】海内首个音乐ChatGPT来了！
提前试用「天工SkyMusic」后，全体编辑部狂风式哭泣：它改编的周杰伦和凤凰传奇切实其实封神。
团队选择了一条少有人走的路，他们赌赢了：比OpenAI提前押中了Sora架构，并且首次在业内公开技能图。

最近几周的震荡，是Suno给的。

重磅升级的Suno V3，不断有刷屏全网的「神曲」出身，让全天下为之猖獗。

谁能想到，音乐的ChatGPT时候，竟然就这么来了。

国内首款AI音乐大年夜模型核心技能首公开爆改霉霉周杰伦效果惊艳

圈内所有人都在谈论：这一波，音乐家当没准要被AI一锅端了。

海内首款音乐AI来了！

这不，就在上周，海内首款AI音乐天生大模型「天工SkyMusic」也正式开启内测了！

各路「大神」已经开始在首页秀创作了

没有灵感怎么办？产品页面乃至为你配备好了灵感话题。

试玩一番后，

这首《爱是幸福》，更是好听到让

除了歌曲整体的音乐品质非常高，极具欣赏代价之外，「天工SkyMusic」的最大亮点之一，便是它清晰逼真的人声。

要知道，人声合成，是AI音乐天生中最主要、最能表示天生效果和品质的维度。

而「天工SkyMusic」的AI人声合成，能够产生中文水平极高、发音清晰的歌声，展现出卓越的音频质量和逼真的演唱效果，已经达到业内SOTA水平！

在这方面，「天工SkyMusic」可是爆杀了几个外来大模型。
他们在中文发音上，切实其实是惨不忍睹没眼看。

比如Suno的这首《宫保鸡丁》，唱起中文歌来也是老外说中文那味儿。

可见，要想做中文歌，还得看咱自己的音乐大模型！

可控性，音乐人的专业指标

接下来，我们就得上一些专业指标了。

歌词段落

一首歌为什么能够爆红全网，火遍大江南北？

从盛行音乐的角度，它须要有强烈的旋律、光鲜的节奏、多彩的和声、冲动大方的情绪。

因此，想要做出一首抓耳的盛行歌，不同歌词段落间奇妙的感情变革，便是一个很关键的点。

而「天工SkyMusic」在这方面，就格外善于——

它能通过歌词来掌握歌曲，表示出主歌和副歌、前奏和主歌的段落差异。

比如这首《龙行龘龘》，开头悠扬的女声民歌和冲动大方扬的男女声对唱部分形成光鲜比拟，一首大气磅礴的国风歌曲浑然天成。

风格

在风格掌握上，它可以参考指定音频，学习特定特定的曲风。

它创作的这首《飞行鸟》，听起来非常像学习了许巍的民谣风。

自动前奏、间奏、尾奏

音乐制作人时常面临的一个问题是，已经有了得当的歌曲，但短缺前奏和尾奏，绞尽脑汁也找不到得当的。

这时候，就可以找「天工SkyMusic」帮忙了。
它补充完全的这首《Guitar》，慵

和声

根据歌词描述，「天工SkyMusic」给这首《水调歌头》自动添加上了和声。

几个男声的和声和主唱的音色十分契合，再结合节奏光鲜的鼓点，一首旋律冲动大方大气的国风《水调歌头》就这样出身了。

歌词技巧

而且，模型还可以参考音频的特色，智能地学习演唱技巧。

比如这首歌剧版的《我的滑板鞋》，就演绎出了别样的风味。

王者光彩、周杰伦、凤凰传奇，你想要的它都有

时下的盛行icon，怎么和盛行音乐领悟？如果找对了叩击大众心弦的那个点，抖音神曲并不是一件难事。

「天工SkyMusic」，让这统统都成为可能。

输入带有构造的歌词+参考音频，就能把自己玩王者光彩的体验写出一首歌了：「我真的气去世了，skr skr~」

我本日打开王者光彩选赵云
开局后我走到哪里都被爆杀
我真的气去世了只能躲在草丛
或者，我们还可以根据已有的歌词进行二创。
比如输入《彩虹》的歌词，再录一段《最长的电影》主歌和副歌30s的音频做参考，两首歌「生出」的一首新歌就出身了：
视频加载中...
听得出来，部分旋律还是有可圈可点之处的。
再用蕾哈娜的《Diamonds》的词，配上霉霉维密秀震荡神曲《See You Again》试试？
出来的「混血」女声英文歌是这样的：
唱腔控音极好，高低音转换流畅，个中几句的多处转音颇为神奇，值得细品。
在人类作曲家中彷佛很少听到这么「鬼才」的旋律组合，这便是来自AI的巧思吧。
而且非常神奇的是，歌曲的唱腔忽然就变得像蕾哈娜了，跟霉霉的嗓音并不像。
接下来，让我们来爆改一下凤凰传奇的《最炫民族风》，不过跟刚才不同的是，这次输入的都是原歌词和原曲，让它自我「整改」一下。
视频加载中...
出来的，是另一种觉得的广场舞神曲。
不仅如此，我们乃至还可以把突发的热点事宜，分分钟变成一首爆款潜力股。
说唱版热梗「高速运转的机器」理解一下：
视频加载中...
那么，「天工SkyMusic」是怎么做到如此惊艳的效果呢？
为此，我们最近特地找到初创团队的大佬聊了聊。
走少有人走的路
MIDI or 音频？破釜沉舟
相信大家心里都有一个疑问：怎么以前没有好听的音乐AI，最近才扎堆冒出来呢？
当然是由于——它非常难！
好的AI音乐难做，一个缘故原由是此前主流的符号派（MIDI）技能效果太差；还有一个缘故原由，便是过往的音乐AI基本都在无人声的BGM领域，有人声的Song要么做不出来，要么效果也是很差。
一首歌有人声和无人声的吸引力程度差别有多大，不言自明。
详细来说，AI音乐天生有两大紧张技能路径，符号派、大模型派。
符号派以MIDI为主流。
MIDI全称Musical Instrument Digital Interface，本身不包含音频文件，而是记录音乐演奏的指令，比如哪个音符被播放、音量是多少、音符持续的韶光等。
由于不能直接天生歌曲，后期还需加上乐器、旋律、音色、人声。
第二条大模型音乐音频天生路线，能够直接学习并天生音频波形，乐器、人声、旋律、音量、音符都是一体化端到端天生。
符号（MIDI）方向的研究，学界有很多，然尔后果却很差；大模型音频方向则极难，做的极少。
面对两条路线，选哪个呢？
立项之初，公司内部就面临着这一困难的选择。
前者效果不好，后者则极有可能会做不出来，全体项目鸡飞蛋打。
末了，「天工SkyMusic」研发团队经由投票，同等决定选择音频方案。
大家公认：甘心冒着巨大风险，也要做出真恰好的AI音乐。
幸运的是，他们成功了。
把稳，下面你看到的这张图，可谓代价连城。
SkyMusic核心技能架构
由于，目前市情上没有任何可用的AI音乐大模型企业，公开过自己的技能路径，包括Suno。
ChatGPT出来后，LLM百花齐放，这是由于有无数开源项目可以参考。
但音频路线+人声Song路线，没有任何公开资料可参考，天工砸进去数不清的研发资源和算力算法投入，才摸索出了上面这张极其宝贵的路径图。
该踩的坑，团队都已经提前踩过了，而如今这个可复现的方案，也被他们年夜方贡献了出来。
而且巧合的是，虽然终极的框架与Sora类似，但其实在研发的时候Sora还没出身呢。
只能说，英雄所见略同。
谈一谈音乐
在类Sora架构中，Large-scale Transformer卖力谱曲，通过学习Music Patches的高下文依赖关系来掌握音乐构造和风格。
这样，就完备实现了对风格的掌控。
而Diffusion Transformer则卖力演唱，也即声音的天生和渲染，通过LDM技能，将Music Patches转换为高质量音频输出，因此音乐具有清晰的风格特色和音质表现。
当AI开始学习情绪
而如果我们仔细听上面的作品，就会觉得到：「天工SkyMusic」对付音乐情绪的捕捉极为细腻。
它天生的音乐，仿佛有着丰富的情绪脉络，和一种动态的变革。
正是这种对付情绪表达的强化，让它的作品能够根据歌词和音乐元素，天生不同情绪氛围的作品。
比较于以往侧重于智力提升的AGI模型，它的「情绪AGI」路线，则显得尤为珍稀和宝贵。
由于，它不仅是一个聪明的AI，还是一个努力去理解和仿照人类情绪、用音乐去表达情绪的AI。
跟市情上那些侧重旋律创作、学习大量乐段的旋律，或是深入和弦、节奏、编曲层次的AI比较，「天工SkyMusic」的情绪维度，也成为它在行业中的差异化亮点。
比Suno和Stable Audio 2.0强在哪儿
与市情上Suno等AI音乐工具比较，AI音乐天生大模型「天工SkyMusic」有着独特的上风。
它背后采取的，是基于MoE架构的4000亿级参数多模态超级大模型「天工3.0」。
在业界领先的逻辑推理、语义理解和泛化能力的加持下，「天工SkyMusic」的相应速率和演习推理效率，也得到了极大地提升。
首先在中文上，「天工SkyMusic」的AI人声合成极为精良，发音清晰、无异响。
特殊是，得益于在中文语境中的深度优化，其在中文演唱效果上，更符合中国市场的需求。
其次，在音乐风格上，「天工SkyMusic」更略胜一筹。
它能够通过歌词掌握感情变革，并实现如颤音、歌剧、吟唱等多种歌唱技巧，使天生的音乐作品，情绪更加丰富且贴合情境。
此外，「天工SkyMusic」还支持创作说唱、民谣、放克、古风、电子等多种音乐风格，用户可以根据个人喜好定制音乐风格。
不过，不仅仅是「天工SkyMusic」，包括Suno等AI工具，都距以假乱真的专家音乐水平相对较远。
因此，这也是昆仑万维决定将其技能架构公开，希望业界一同推动这一领域发展的缘故原由。
AI不会取代音乐人
「天工SkyMusic」、Suno之外，近几天另一个堪称「Sora版」的神秘音乐模型Udio，也引发了全网关注。
拿到测试资格的网友，纷纭表示Udio音乐天生强太多了，乃至让人感想熏染到了AGI的力量。
难道AI已经真的到了，能够取代人类音乐歌手的地步了吗？
原创，真的已经不再主要？
显然都不是。
AI音乐天生技能的快速迭代，无疑正在改变音乐创作的办法和体验。
但，这并不虞味着AI会完备取代音乐人，或让原创变得不再主要。
相反，AI音乐天生技能与音乐创作者，可以相辅相成。
一方面，强大的AI可以降落音乐创作的门槛。
即便是非专业人士，也拥有机会打仗音乐，创作出有一定水准的音乐作品。
这将极大地拓展音乐创作者群体，引发多元的音乐形态和跨界互助。
另一方面，如「天工SkyMusic」这样的工具可以赋能音乐创作者。
它们可以通用简化旋律原型天生、供应创意灵感、帮忙制作高质量伴奏等创作环节，帮助音乐人提高创作效率。
昆仑万维董事长兼CEO方汉曾在采访中说过这么一句话：
在内容生产行业，有这么一条规律：如果内容制作门槛降落1倍，那么内容创作者的创作数量将会增加10倍。
因此，当音乐创作门槛降落之后，就会有更多的人成为「原创音乐人」。
总而言之，若以静态的角度看待行业，许多人会认为，AI音乐的涌现「切走了音乐行业的蛋糕」。
但动态地来看，技能的进步能够让音乐市场越来越大，行业发达发展，孕育出全新的内容生态、音乐业态。
比如，按需定制音乐做事、在线音乐创尴尬刁难象订阅等新的商业模式，可以为音乐家当带来新的消费增长。
当前，海内许多音乐平台都为Suno AI做了专栏，直接解锁了一把新的流量密码。
而面向教诲，AI音乐创作可以帮助我们快速感知音乐创作事理，考试测验多种音乐风格创作，为音乐家当培养孵化新一代人才。
让每个人更好表达自我
更宏不雅观地讲，除了图片、视频、AI音乐也是通向情绪AGI路上的一个主要的组成部分。
音乐，不仅是一种艺术形式，更是情绪互换和表达的办法。
而且，音乐更能触及人的情绪深处，是情绪表达的主要媒介。
针对AGI开展的研究中，许多团队都将重点放在模型智力的扩展与增强上。
而真正的AGI的终极目标是——更像人，兼具感性理性、推理逻辑思维，以及情绪理解等能力。
正是意识到了这点，一贯将情绪AGI视为主要方向的昆仑万维，希望占领音乐AI这一大技能难题。
在研发「天工SkyMusic」过程中，研究团队积极探索音频内容，尤其是音乐对付情绪理解与表达的独特上风。
他们不仅关注音乐作品的谱曲、编排和演唱等技能层面，更强调模型对音乐情绪色彩的感知和再现能力。
「天工SkyMusic」在情绪表达的准确性、多样性，以及歌词段落感情变革的敏感捕捉，印证了昆仑万维在情绪AGI上取得本色性进展。
当然，除了AI音乐天生，AI写作、绘画、动画等领域，昆仑万维也在探索其在创尴尬刁难象中的运用。
在情绪AGI这条主线上，他们希望通过自研技能，帮助创作者更好地通过AI技能表达和通报情绪内涵。
未来三十年，会有越来越多的人表达自我，人类社会的自我表达侧要翻1000倍。
昆仑万维接下来所做的，便是让AI降落人类创作门槛，让我们每个人都加入这股AI音乐大潮。

每期AI知识网

国内首款AI音乐大年夜模型核心技能首公开爆改霉霉周杰伦效果惊艳

2024人工智能专业评级高校排名出炉清华夺冠西电压北大年夜排第5

介绍国外购物网站设计,用户体验与营销步骤的完美融合