作者 | 喷鼻香草编辑 | 漠影
智东西4月17日宣布,昆仑万维今日重磅推出4000亿参数开源大模型天工3.0,其采取MoE(稠浊专家模型)架构,比较2个月前的天工2.0,逻辑推理、语义理解、繁芜需求应对、内容创作等4大核心能力大幅提升。
天工3.0新增了图表比拟天生、研究模式、增强模式、扩图修图等功能,并针对性地演习了模型的Agent能力,使得模型能够“独立思考”,方案、拆解用户需求,完成繁芜任务。
同时,基于天工3.0打造的天工SkyMusic也是中国首个音乐AIGC SOTA(领域最佳水准),其采取音乐音频领域类Sora模型架构,是海内唯一公开可用的音乐天生大模型。
天工SkyMusic大幅降落了音乐创作门槛,虽然仍处于起步阶段,但其已经在音乐天生领域取得了不错的效果。4月初开启邀测后,天工SkyMusic后台提交测试申请的人次超百万。
视频加载中...
▲广场舞神曲版《再别康桥》(来源:智东西)
天工3.0大模型的发布,代表了昆仑万维“All in AGI与AIGC”计策路径上的又一里程碑时候。功力大增的天工3.0大模型,到底有多好用?能在哪些方面显著提升生产力?智东西第一韶光体验了天工3.0。
一、环球最大开源MoE模型,4000亿参数、4大核心能力升级天工3.0参数规模达到4000亿级,是环球最大规模的开源MoE大模型。相较于上一代,天工3.0的模型技能知识能力提升超过20%,数学、推理、代码、文创能力提升超过30%。
▲天工3.0成为环球最大开源MoE大模型
天工3.0基座大模型在逻辑推理能力、语义理解能力、应对繁芜需求能力和内容创作能力4个方面大幅提升。作为多模态大模型,天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片天生、AI音乐天生等功能,在MMBench等多项威信多模态测评结果中超越GPT-4V。
▲天工3.0多模态性能超越GPT-4V
基于模型能力的提升,天工3.0还新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能,可以高效地完成家当剖析、产品比拟等各种繁芜需求。
在研究模式中,天工3.0能够环绕大略指令进行干系问题的延伸,自动天生研究大纲、图谱、实践总结、思维导图等。
例如,我让天工3.0研究“OpenAI发展进程”。在全网搜索后,它能以分段提炼等形式呈现搜索结果,并自动总结大纲、绘制思维导图。
▲天工3.0总结OpenAI发展进程(图源:智东西)
在增强模式中,天工3.0能够针对用户的繁芜Query进行拆解、细化,通过追问、信息理解与补全,使其在自然语义理解方面性能更强,更好地面对不愿定性知识。
比如我输入了提示词“2024年科技圈”,这个需求的难度是比较大,会包含多种细分需求的提示词。天工3.0能立即意识到这个问题并进一步追问,它还知心肠供应了行业发展趋势、产品市场规模、投资环境等方向选择。在我选择“发展趋势”后,它基于联网获取的资料很快给出了包含AI、AIoT、新能源等趋势信息的回答。
视频加载中...
▲天工3.0增强模式(来源:智东西,视频有加速)
基于多轮搜索及综合工具调用功能,天工3.0可以将用户任务拆解成细分环节,实时判断是否须要联网或调用工具,进行单轮或多轮的联网搜索、工具调用。
联网当然要稽核最新的时势热点,我决定问问天工3.0“成都迪士尼”最近为什么这么火,天工3.0随即准确地阐明了这个梗的来源及事宜经由。然后我跳转话题,问“迪士尼嬉戏攻略”,天工3.0联系高下文,给出了成都的出行攻略。改成问上海迪士尼的景象也完备没问题,通过调用景象组件工具,天工3.0能够直接给出近几日上海的景象预报。
▲天工3.0多轮搜索及综合工具调用功能(图源:智东西)
在图像天生方面,天工3.0的改图扩图能力取得打破,可以让它绘制一张风景图,并逐步在图中增加新的物品或元素:
▲天工3.0图像绘制(图源:智东西)
对付用户而言,天工3.0不仅适用于家当剖析、市场研究、产品比拟、知识管理等事情场景,也适用于内容创作、教诲培训、智能搜索、语音合成、图像和音乐天生等娱乐场景。
学生党、打工人可以利用天工3.0的研究模式和增强模式,通过大略的查询得到全面而精髓精辟的资料,文献搜集、资料汇总等所需的韶光大幅缩短,提升事情学习效率。
内容创作者可以利用天工3.0的AI音乐天生、AI语音、AI图像天生等功能,提高创作效率和质量,同时创作门槛降落,大家都可以成为“作曲家”、“插画师”。
此外,在ToB领域,企业用户也可以利用天工大模型构建专属Agent,实现专属知识库,实现自动调用制订工具、完成繁芜指令遵照Agent构建等,提升事情效率、优化决策过程、增强产品和做事的竞争力。
二、海内首个音乐AIGC SOTA,秒级天生80秒歌曲、人声“以假乱真”近期,外洋的音乐天生产品Suno、Udio爆火,AI音乐天生领域受到了前所未有的关注。但这些产品面向外洋市场设计,对付海内用户而言有一定的利用门槛。
基于天工3.0打造的天工SkyMusic,不仅是目前海内唯一公开可用的AI音乐天生大模型,而且在人声&BGM音质、人声自然度、发音可懂度等性能方面,以6.65分的综合得分超越Suno V3,成为环球AI音乐SOTA模型。
▲天工SkyMusic综合性能超越Suno V3
天工SkyMusic可以天生80秒44100Hz采样率双声道立体声歌曲,支持天生说唱、民谣、放克、古风、电子等多种音乐风格,还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。
此外,天工SkyMusic还拥有独创的参考音乐天生与方言歌曲天生能力。用户可上传或选取现有的参考音乐,天生与之风格、唱腔类似的歌曲,进一步降落了利用门槛;也可以天生粤语、成都话、北京话等方言,传播地域文化。
其利用方法也非常简便,用户只需下载天工APP,填写歌词或利用AI天生歌词,再选择或上传一首参考歌曲,点击“天生”即可在不到半分钟的韶光内天生音乐,并且每首歌都供应三个版本可供选择。
基于天工SkyMusic的SOTA能力和情绪表达上风,你可以为自己喜好的古诗词配上旋律:
视频加载中...
▲抒怀版《长恨歌》(来源:智东西)
这首《长恨歌》是我用徐佳莹的歌曲《身骑白马》作为参考天生的,天工SkyMusic天生的音乐在伴奏上层层递进,在旋律上也表示出了主歌和副歌的段落差异。
也可以将网络热梗改编成说唱版:
视频加载中...
▲说唱版网络热梗(来源:智东西)
这段话是近期网络上比较火的“加密文学”,参考音乐是天工官方供应的一则说唱指南。作为“音乐小白”,我对说唱歌曲中的Verse、Flow等专业术语理解并不多,但能听出来这个AI嘴皮子确实挺快(Doge)。
如果不想选择现有的歌词,可以通过AI天生歌词功能,让AI为你续写。以下是我用AI天生的关于“不想上班”的文案,基于“土味神曲”《5:20AM》天生一首新歌:
视频加载中...
▲AI创作土摇版歌曲(来源:智东西)
方言歌曲天生能力方面,智东西选取了陈奕迅经典粤语歌《富士山下》的歌词,以周杰伦的《青花瓷》作为参考曲目输入,天生了这首具有国风特色的青花瓷版《富士山下》:
视频加载中...
▲青花瓷版富士山下(来源:智东西)
如此逼真的人声“以假乱真”能力,以及高度还原音乐风格等各种环节的可控性,天工SkyMusic是如何做到的?
据理解,现有AI音乐大模型企业普遍没有公开自己的技能路径,因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技能路径探索上做了非常多的考试测验,花费了大量研发资源,终极摸索出下图这条路:
▲天工SkyMusic技能事理图(图源:昆仑万维)
在AI音乐天生领域,有两大技能路径,符号派与大模型派。天工SkyMusic选择了难度更大、效果更好的大模型音乐音频天生路线。
在音频天生路径上,又有三个细分领域:Song、BGM、Speech。过去很多AI音乐研究都集中在无人声的BGM领域,有人声的Song赛道险些没有好的办理方案。而天工SkyMusic,便是在Song领域取得了极大打破,大幅提高了AI音乐天生技能在Song领域的模型表现,首创了音频天生大模型的成功案例。
详细来说,天工SkyMusic采取与Sora类似的模型架构,包含三大核心模块——Encoder、DiT(Diffusion Transformer)和Decoder。个中,Large-scale Transformer卖力谱曲,学习Music Patches的高下文依赖关系,同时完成音乐可控性;DiT卖力演唱,通过LDM(Latent Diffusion Model)让Music Patches被还原成高质量音频。
从上述案例及跟Suno V3的横评中可以看出,比较外洋其他AI音乐大模型,天工SkyMusic在AI人声合成的细腻度、可识别度上表现精良,咬字发音,并且支持粤语、成都话等方言语种。
虽然尚处于起步阶段,但天工SkyMusic已经让很多用户感想熏染到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技能架构公开,也表示了其对开源社区生态、家当共同发展的重视。
三、构建六大AI业务矩阵,海内首推AI搜索、AI音乐产品大模型狂飙500天,如何将其能力落地到运用产品仍是困扰浩瀚AI厂商的难题。大模型杀手级运用何时涌现?
昆仑万维董事长兼CEO方汉见告智东西,C端+免费可能成为大模型落地的紧张路径。在互联网时期,美国的谷歌、微软,海内的百度、阿里等都是靠这个逻辑成为互联网巨子,同样的道理也将延伸到大模型时期。
一方面,C端用户上限高达80亿;另一方面,订阅模式门槛高,用户接管程度相对较低。而要做到免费,AI UGC(用户生产内容)平台是一个好的商业模式。
根据风投契构a16z上月发布的天生式AI产品Top 100报告,ChatGPT、Gemini等通用内容生产运用仍霸占消费级AI运用大头。与6个月前的排名比较,有两个新种别首次进入排行:音乐和生产力。
Suno是唯一进入排行的音乐天生产品,这表明音乐生产工具逐渐闯入消费者视野,成为下一个有潜力的C端运用落地路径。而生产力种别上榜7款产品,包括写作、视频择要、搜索引擎、文章总结等领域。
这与昆仑万维的产品布局路径不谋而合。
2023年4月,昆仑万维提出“All in AGI和AIGC”计策,不局限于单一的产品或技能,而是构建一个完全的AI生态系统,逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵。
个中,AI大模型和AI搜索作为底座,是所有AIGC能力的根本,音乐、视频、社交、游戏等方向则是昆仑万维在AGI道路上的探索,表示了其AI UGC平台商业模式。
2023年8月,昆仑万维推出海内第一款AI搜索产品——“天工AI搜索”,深度领悟AI大模型能力,通过人性化、智能化的办法,为用户供应快速、可靠的交互式搜索做事,助推传统搜索超过式迈入AI时期。
本月初,昆仑万维推出海内第一款AI音乐天生产品——“天工SkyMusic”,采取音乐音频领域类Sora模型架构,支持天生80秒44100Hz采样率双声道立体声歌曲,降落了音乐创作门槛,大家都可以用音乐来表达情绪。
昆仑万维为何能够在海内市场两次首发海内第一款AI细分运用创意新品?
这离不开其前瞻性的计策布局、深厚的技能积累、强大的研发实力以及对市场需求的敏锐洞察。
昆仑万维从2020年开始布局AIGC和大模型领域,至今已积累近四年的干系工程研发履历,且研发投入巨大。据其2023年第三季度报告,公司前三季度研发用度达到6.2亿元,同比增长28.18%。同时,公司十分重视开源生态,天工大模型在开拓过程中也得到了开源社区上百位AI科学家的助力。
此外,昆仑万维对市场需求有着敏锐的洞察力,看到了AI技能在搜索引擎、音乐创作等场景的巨大潜力。自2023年4月发布天工大模型之后,团队就开始了大模型与搜索引擎的领悟考试测验,并于同年8月推出中国首款AI搜索产品——天工AI搜索。天工SkyMusic则表示了昆仑天工探索研究的一个主要方向——情绪AGI。
结语:All in AGI与AIGC,昆仑万维交出最新答卷随着天工3.0大模型的开源公测,我们见证了昆仑万维AI技能的又一里程碑。
天工3.0以其4000亿参数的MoE架构,不仅在逻辑推理、语义理解等核心能力上实现了飞跃,更在多模态领域展现了其强大的运用潜力。天工SkyMusic的成功推出,更是将音乐创作的门槛降至新的低点,让每个人都能轻松玩音乐。
昆仑万维“All in AGI与AIGC”的计策布局,在展现了对未来技能趋势前瞻性的同时,彰显了其在AI领域的年夜志壮志。我们期待看到更多精良的国产大模型及AIGC产品,通过在迈向AGI的道路上各种创新探索,为更多行业及人们日常生活带来改变。