但是,当人们希望通过某种技能将目标人物的发言与其他人的发言分开时,结果每每和预期相差甚远,就像在一辆后座上都是小孩的轿车上利用免提电话一样。
不过,日本三菱电机日前表示,他们已成功办理这个问题。5 月 24 日,他们在东京举行的年度 R&D 开放日的公开演示会上展示了最新的语音分离技能。
在第一项演示中,两个人对着同一个麦克风演讲不同的内容。语音分离技能实时分离了两个句子(约 3 秒),然后以极高的准确性重新连续播放。但是,这次演示是在封闭的房间里进行的,而且所有不雅观众都哀求保持沉默,不能大声交谈。
第二项演示利用三个扬声器的仿照稠浊。不出所料,分离结果显然不尽人意。
三菱电机流传宣传,在低噪声环境和说话者都以相同音量互换这两个场景下,这项技能的准确度可达 90% 和 80%。而对付传统方法,即两个说话者利用单个麦克风,准确度只有约 50%。
这项语音分离技能采取了三菱自己的深层聚类技能,是一种基于人工智能的深度学习方法。
这个别系已经学会了如何检讨和分离稠浊语音数,可以基于不同说话者的腔调、音高、语调等对语音旗子暗记或元素进行编码,并对编码后的旗子暗记优化,使属于同一说话者的不同语音成份具有相似的编码,而属于另一说话者的语音成份具有不同的编码。聚类算法根据它们的相似性将编码分组,然后通过合身分其余语音成份来重构每个人的语音。
与分离语音旗子暗记和噪音不同,分离不同说话者的语音是非常困难的,由于它们有太多相似的特点。马萨诸塞州剑桥三菱电机研究实验室副主任 Anthony Vetro 说,“你可以在某种程度上做到,利用更精密的两个或更多麦克风来对说话者进行定位,但是只用一个麦克风的话的确很困难。”
他补充道,这个别系的优点在于在利用之前不用对说话者进行分外的演习。同样地,它也不受措辞本身的影响。
位于东京附近的三菱电机自然措辞处理技能集团高等经理 Yohei Okato 表示,三菱电机将利用这项技能来提高语音通信的质量和自动语音识别(ASR)运用的准确性,例如利用ASR掌握汽车和电梯,以及家里的小家电和小工具。