加州大年夜学华人博士团队演习AI模仿鸟儿唱歌实时意念语音转换

编辑：LQ

【新智元导读】加州大学圣迭戈分校的研究职员建立了一个机器学习系统，可以预测鸟儿唱什么。
这项研究最大的创新是为「声带假体」供应「实时语音合成」，但还远不止于此。
教AI理解这些声音是演习中很主要的一步，这些系统可以取代生物学上的人类声音。

与人类自然的从「想到」到「说出」模式比较，当前最前辈的语音转换系统也很慢。

当前顶尖的NLP系统还在努力跟上人类的思维速率。

比如，与谷歌助手或Alexa虚拟助手互动时，常日停顿韶光会比你预期的长，不能实现与真实的人交谈的流畅度。

加州大年夜学华人博士团队演习AI模仿鸟儿唱歌实时意念语音转换

AI须要韶光处理你的语音，它要确定每个单词对它来说意味着什么，是否在它的能力范围之内，然后找出哪些软件包或程序可以访问和支配，末了再输出理解结果。

从宏不雅观的角度来看，这些基于云打算的系统运行速率已经很快了，但仍旧不敷以给不会说话的人创造一个无缝接口，让他们以思维的速率「发生发火声音」。

从鸟鸣研究开始

「鸣鸟」（一种鸟）是研究繁芜「发声行为」的一个很有吸引力的模型。

鸟鸣与人类措辞有许多独特的相似之处，对它的研究使人们对学习、实行和坚持发声运动技能背后的多种机制和电路有了普遍的认识。

此外，产生鸟鸣的生物力学与人类和一些非人类灵长类动物有相似之处。

在这项新的研究中，研究小组在12只斑胸草雀的大脑中植入电极，然后开始记录它们唱歌。

但是仅仅演习人工智能识别鸟鸣时的神经活动是不足的，纵然是鸟类的大脑也太过繁芜，无法完全地描述入迷经元之间的互换办法。

因此，研究职员演习了另一个别系，将实时歌曲减少到AI可以识别的模式。

在这项研究中，研究职员展示了一个用于鸟鸣的声乐合成器，通过将植入运动前核HVC的电极阵列记录的神经群体活动映射到鸟鸣的低维压缩表征上，利用可实时履行的大略打算方法来实现。

利用鸟类发声器官（即syrinx，鸣管）的天生性生物力学模型作为这些映射的低维目标，可以合成符合鸟类自身歌声的声音。

这些结果供应了一个观点证明：高维的、繁芜的自然行为可以「直接」从正在进行的神经活动中合成。
这可能会启示其他物种通过利用外围系统的知识和其输出的韶光构造来实现类似的假体方法。

实验描述

该研究描述了两种从斑胸草雀（Taeniopygia guttata）运动前核记录的神经活动中合成真实发声旗子暗记的方法。
每种方法都利用了发声运动过程的一个不同特色。

首先，研究职员利用了对鸟鸣产生的生物力学的理解，采取了一个发声器官的生物力学模型，该模型在低维参数空间中捕捉到了大部分鸟鸣的光谱-韶光繁芜性（spectro-temporal complexity）。

与歌曲的完全时频表示比较，这种降维能够演习一个浅层前馈神经网络（FFN），将神经活动映射到模型参数上。

作为第二种合成方法，研究职员利用了神经活动和歌曲之间的韶光协方差中的预测身分，这可以由一个直接在声乐输出的频域表示（频谱图）上演习的递归、是非期影象神经网络（LSTM）学习。

每个合成的神经元输入来自觉得-运动核HVC，那里的神经元产生高层次的指令，驱动学习歌曲的产生。

成年斑胸草雀单独演唱由3-10个音节序列组成的固定主题歌曲。

唱歌时，多种HVC神经元亚型的活动受到调节：针对X区和RA区的投射神经元（HVCx/RA）在某个主题歌曲期间表现出短、精确、稀疏的活动爆发，而抑制性中间神经元（HVCI）在唱歌时显示出更多的tonic活动。

为了得到合奏的HVC活动和声音输出，我们在雄性成年斑胸草雀（>120天算夜）身上植入了16-channel或32-channel的Si探头，并在每只鸟唱歌时同时记录细胞外电压（n=4只鸟，每次70-120个发声主题）。

利用Kilosort对神经记录进行自动分类，并进行人工致顿以打消噪音。

根据违反折返期（refractory period violations）的数量，非噪声集群被分为单个单位活动SUA（single-unit activity）或多单位活动（single- or multi-unit activity，MUA），并根据唱歌时活动的稀疏程度，推测为投射或中间神经元。

录音以MUA群（n = 88）和HVC中间神经元（HVCI；n = 29）为主，相对较少的推测投影神经元（HVCx/RA；n = 15）。
Figure 1A显示了与歌曲对齐的神经活动直方图的例子。
Figure S1显示了每只鸟的集群数量的光栅示例。

具有生物力学意义的压迫增强神经驱动的合成

通过神经活动合成繁芜的运动序列须要两个高维表征之间的映射。
为了降落问题的维数，我们利用了一个鸟类发声器官的「生物力学模型」，该模型将神经活动转化为发声输出。

该模型考虑了鸣管和声道的功能，鸣管包含唇褶（labial folds），当受到亚鸣管气囊的压力时，唇褶会振荡，并调节气流发生发火声音(Figure 1B）。

唇的动态可以按照非线性振荡器的运动方程进行建模，个中产生的声音的特色由两个韶光变革的参数决定，代表生理上的运动指令。

为了通过生物力学模型从神经活动中合成歌曲，首先要拟合模型的参数，天生每种发声的合成版本。

每次演习中，我们随机选择60%的模体进行演习，将每个模体分成5毫秒的单元，然后演习一个单隐层的FFNN，在50毫秒内独立于神经活动预测每个单元相应的生物力学模型参数。
神经活动用每个簇的均匀放电速率表示，分成1-ms 的单元。

为了避免引入韶光干系性，研究职员将每对神经活动窗口和目标模型参数呈现给网络的顺序随机化。
通过演习，预测神经活动测试集对应的生物力学模型参数值，并将模型的微分方程积分得到神经驱动合成歌曲的每一个单元。

这就产生了合成的发声效果，听起来和鸟类自己的声音很相似。

相反，用FFNN直接预测歌曲的频谱-韶光特色会导致低质量的合成。
研究职员演习了一个与之前类似的网络，但以歌曲的频谱身分为目标，即以64个频段的功率为代表。

以这种办法为每只鸟合成的歌曲的例子（Figure 3; Audio S1, S2, S3, and S4）显示了FFNN如何未能产生斑胸草雀歌曲中范例的定义明确的谐波堆，以及如何虔诚地再现声带的起伏。

与光谱-韶光系数比较，FFNN 预测模型参数的能力不同（(Figures 2, 3, and 4），表明降落行为的维度可以增强预测能力。
为了证明这一点，研究职员演习了FFNN来重现行为的不同「压缩」，即谱图的前3个主身分（PC）。

从神经活动中预测3个PC值的表现与预测生物力学模型参数的表现相似（Figure S4A）。
后者的上风在于其天生能力，可以产生与BOS更相似的歌曲。

未能准确预测鸟类主题的光谱系数可能反响了这个模型无法捕捉更繁芜的跨相应群的韶光动态，在特定的发声之前。

为了捕捉这些动态，研究职员演习了一个LSTM，直接从前面50毫秒的神经活动中预测歌曲的频谱身分(64个频带) ，利用与前面部分描述的相同的输入和输出数据。
与 FFNN 不同，LSTM 产生一个神经驱动的歌曲合成，听起来类似于预期的鸟自己的歌曲（Figure 3; Audio S1, S2, S3, 及S4）

由于雄性斑胸草雀的种类有限，这可能意味着可以通过相对大略的方法实现直接合成。
然而，由于 FFNN 的丢失函数靠近于正则化的非线性回归，因此与所有其他方法比较，它预测出的歌曲质量较差。
缘故原由尚不完备清楚，但它可能反响了数据集的神经元亚型组成。

该研究演示了一个繁芜通信旗子暗记的BMI，利用打算块，可以在一个建立的动物模型中实时实现，用于产生和学习繁芜的声音行为。
该方法的上风在于能够找到行为的低维参量化，这种办法可以通过记录相对较小的样本(几十个)神经元的活动来驱动。
这样做与记录从表面位于细胞 HVC 可以通过侵入性较小的微电极阵列，不仅能够分辨 LFP，这已被证明适宜BMI, 还有 SUA 和 MUA.

这供应了一个新颖的工具来探索「神经回路根本」的产生，获取和保持声音通信旗子暗记，并解锁进入新的模型和实验，旨在理解神经元的活动是如何转化为自然行为，以及如何外围效应塑造行为的神经根本。

该方法也为「声带修复」策略供应了一个试验场。
虽然鸟鸣声与人类措辞有很多明显的差异，但两种措辞系统有很多相似之处，包括「连续组织」的特点和「习得」策略，神经元组织和功能的类比,遗传根本,以及发声的物理机制，实验的可达性、对神经系统和外周系统的相对前辈的理解，以及作为发声和学习的发达模型的地位，这都使鸣鸟成为一个有吸引力的动物模型，以促进语音BMI（speech BMI），很像运动BMI的非人灵长类动物模型。

该论文原始数据、代码资源均已开放。

论文作者之一Shukai Chen，目前是加利福尼亚大学圣迭戈分校生物工程学院在读博士，研究方向为打算神经科学。

语音BMI铺垫DL再次复兴

该实验确实为一个突出的问题供应理解决方案。
实时处理鸟鸣令人印象深刻，用人类措辞复制这些结果将会令人惊奇。

但是，这项研究仍处于早期阶段，不一定适用于其他语音系统。
为了让它运行得足够快，研究职员利用语音剖析这一捷径，当把它扩展到鸟鸣以外时，这个捷径可能就不起浸染了。

但随着进一步的发展，这可能是自2014年「深度学习复兴」以来「脑机接口」的第一次巨大的技能飞跃。

参考资料：

https://www.cell.com/current-biology/fulltext/S0960-9822(21)00733-8?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0960982221007338%3Fshowall%3Dtrue#%20

https://thenextweb.com/news/researchers-created-brain-interface-sing-what-birds-think

每期AI知识网

加州大年夜学华人博士团队演习AI模仿鸟儿唱歌实时意念语音转换

平面设计Cdr制作海报元素N招矢量图树干

ai绘画免费网站太麻烦用这三个软件轻松绘画

每期AI知识网

加州大年夜学华人博士团队演习AI模仿鸟儿唱歌 实时意念语音转换

平面设计Cdr制作海报元素N招矢量图树干

ai绘画免费网站太麻烦用这三个软件轻松绘画

加州大年夜学华人博士团队演习AI模仿鸟儿唱歌实时意念语音转换