【新智元导读】两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!
前段韶光技惊四座、剑指GPT-4o的实时语音模型Moshi,终于开源了!
自然谈天,感情丰富,随意打断,谢绝呆板和回合制!
大神Karpathy体验之后也表示:nice~
来自法国的初创团队Kyutai,于7月初发布了这个对标GPT-4o的神奇的端到端语音模型。
2个多月后的本日,他们兑现了自己的承诺,将代码、模型权重和一份超长的技能报告一股脑开源。
论文地址:https://kyutai.org/Moshi.pdf
开源代码:https://github.com/kyutai-labs/moshi
开放权重:https://huggingface.co/collections/kyutai
在海的那一边,GPT-4o的语音模式还没有完备端上来,这边的模型已经免费送了。
大家可以辞官网(moshi.chat)在线免费体验,比较于平时你问我答的AI语音助手,这种「像人一样」的谈天办法还是很奇特的。
全体模型的参数量为7.69B,pytorch平台上只有bf16版本,如果在本地跑的话对显存有一定哀求,而candle上供应了8bit版本,mlx上更是有4bit版本可供给用。
moshiko和moshika表示男声和女声两个版本
moshi作为一个全双工口语对话框架,由几部分组成:首先是Mimi,目前最前辈的流式神经音频编解码器,能够以完备流式的办法(延迟80毫秒)处理24 kHz音频(12.5 Hz表示,带宽1.1 kbps)。
然后是卖力知识储备、理解和输出的Transformer部分,包括Helium Temporal Transformer和Depth Transformer。
个中小型的深度Transformer卖力对给定时间步长的码本间依赖性进行建模,而大型(7B参数)韶光Transformer对韶光依赖性进行建模。
作者还提出了「内心独白」:在演习和推理过程中,对文本和音频进行联合建模。这使得模型能够充分利用文本模态通报的知识,同时保留语音的能力。
Moshi仿照两种音频流:一种来自Moshi自身(模型的输出),另一种来自用户(音频输入)。
沿着这两个音频流,Moshi预测与自己的语音(内心独白)相对应的文本,极大地提高了天生的质量。
Moshi的理论延迟为160毫秒(Mimi帧大小80毫秒 + 声学延迟80毫秒),在L4 GPU上的实际总延迟仅有200毫秒。
技能细节
Moshi打破了传统AI对话模型的限定:延迟、文本信息瓶颈和基于回合的建模。
Moshi利用较小的音频措辞模型增强了文本LLM主干,模型吸收并预测离散的音频单元,通过理解输入并直接在音频域中天生输出来肃清文本的信息瓶颈,同时又可以受益于底层文本LLM的知识和推理能力。
Moshi扩展了之前关于音频措辞模型的事情,引入了第一个多流音频措辞模型,将输入和输出音频流联合显式处理为两个自回归token流,完备肃清了说话者转向的观点,从而许可在任意动态(重叠和中断)的自然对话上演习模型。
Helium
首先先容卖力文本部分的Helium,这里采取了一些比较通用的设计。
比如,在把稳力层、前馈层和输出线性层的输入处利用RMS归一化;利用旋转位置嵌入(RoPE)、4,096 个token的高下文长度和 FlashAttention来进行高效演习;利用门控线性单元,SiLU作为门控函数。
Helium的分词器基于SentencePiece的一元模型,包含32,000个紧张针对英语的元素。
作者将所有数字拆分为单个数字,并利用字节退避来确保分词器不会丢失信息。利用AdamW优化器演习模型,先采取固定学习率,然后进行余弦学习率衰减。
7B Helium措辞模型和Moshi架构演习的超参数
研究职员在公共英语数据的2.1T token上对模型进行了预演习。
演习数据包括维基百科、Stack Exchange和大量科学文章,还依赖网络爬取(特殊是来自CommonCrawl的数据)来扩展数据集,并通过重复数据删除、措辞识别和质量过滤等操作得到高质量的演习集。
MimiMimi利用残差矢量量化 (RVQ) 将音频转换为Moshi预测的离散token,并通过蒸馏将非因果的高等语义信息传输到因果模型天生的token中,从而许可对语义进行流式编码和解码。
Mimi架构的灵感来自SoundStream和Encodec,编码器通过级联残差卷积块将单通道波形投射到潜在表示。所有卷积都是因果的,因此该自动编码器可以以流办法运行。
通过4个步幅为(4、5、6、8)的卷积块 ,以及步幅为2的1D卷积,Mimi的编码器将24kHz波形投影为每秒12.5帧、维度为512的潜在表示,而解码器采取转置卷积将潜在表示投射回24kHz音频。
为了提高Mimi将语音编码为紧凑表示的能力,研究职员在模型中添加了Transformer模块,分别位于量化之前和之后。
每个Transformer块包含8层、8个头、利用RoPE位置编码、250帧(20 秒)的有限高下文、模型维度512、MLP维度2048。利用 LayerScale来担保稳定演习,对角线值初始化为0.01。两个Transformer都利用因果屏蔽,保留了全体架构与流式推理的兼容性。
MoshiMoshi作为一种用于音频措辞建模的新架构,将Helium与较小的Transformer模型相结合,以分层和流式传输的办法预测音频token。
这种无条件音频措辞模型,供应了优于非流模型的清晰度和音频质量,同时以流办法天生音频。作者进一步扩展了这种架构,以并行仿照多个音频流,从而可以在观点上和实践上大略地处理具有任意动态的全双工对话。
在上图的整体架构中,RQ Transformer将长度为K·S的扁平序列分解为大型韶光Transformer的S个韶光步长,天生高下文嵌入,用于在K个步骤上调节较小的深度Transformer。
与利用单个模型对展平序列进行建模比较,这许可通过增加S来缩放到更长的序列,或者通过增加K来缩放到更高的深度。
架构中的深度Transformer有6层,维度为1024,16个把稳力头。与之前的事情不同,作者在深度Transformer中为线性层、投影层和全连接层利用每个索引的不同参数。
事实上,不同的子序列可能须要不同的转换。鉴于该Transformer的尺寸较小,这对演习和推理韶光都没有影响,但上表结果显示这种深度参数化是有益的。
内心独白内心独白是一种用于音频措辞模型演习和推理的新方法,它通过在音频token之前预测韶光对齐的文本token,显著提高了天生语音的事实性和措辞质量。
Moshi许可推理来自用户音频和Moshi音频的非措辞信息,但这与Moshi在其语音输出中天生文本并不抵牾。根据过去的不雅观察,从粗到细的天生(从语义到声学token)对付天生同等的语音至关主要。
作者利用这种层次构造,利用文本token作为语义token的每个韶光步前缀。实验表明,这不仅极大地提高了天生语音的长度和质量,还展示了单个延迟超参数如何许可从ASR模型切换到TTS模型,而不会改变丢失、架构或演习数据。
参考资料:
https://x.com/kyutai_labs/status/1836427396959932492