只需 15 分钟iPhone 就能复制你的声音

史蒂芬·霍金的「机器电音」，大概是天下上个中一个最有辨识度的声音。

但那并不是霍金自己的声音。

在霍金因渐冻症（ALS）失落去说话能力的年代，技能还不敷以让他能天生自己声音。
事实上，能用上语音合成器的人都屈指可数。

到了本日，ALS 患者虽然有了更多语音合成的选择，但总体用度和韶光门槛仍旧不低，遍及度也有限。

只需 15 分钟iPhone 就能复制你的声音

最近，苹果公布了全新无障碍功能 Personal Voice（暂未上线），不仅让用户能免费「备份」自己的声音，同时还在安全地运用 AI 技能上，作出了一次故意思的考试测验。

只需 15 分钟「调教」，就能天生你的声音

▲ 图自 Fastcompany

在天生式 AI 可以模拟统统的时期里，用 AI 模拟一个人的声音听起来已经不算新奇，只是觉得有点安全隐患。

我好奇的，更多是苹果要若何安全和高效地实现 Personal Voice 这一功能。

据先容，iPhone、iPad 和 Mac 用户只须要根据提示录制 15 分钟的音频，苹果就会基于设备真个机器学习技能来天生和用户一样的声音。

比较之下，为失落语群体供应专业语音合成做事的公司，可能须要采取专业设备，录制几小时的语音素材，价格最低都要数百美元。

另一项新无障碍功能 Live Speech，则支持用户打电话、FaceTime 或者是和他人面对面对话的时候，输入笔墨即可天生语音内容，为失落语或未便利说话的用户供应另一种「发声」办法。

结合 Personal Voice 和 Live Speech 两项功能，失落语用户就能用靠近自己原来声音的天生声音和他人沟通。

用起来是方便了，但若何避免有人用网上扒的语音素材来天生他人的声音？

素材随机化。

在录制 15 分钟语音素材的过程中，苹果将随机天生须要用户朗读的内容，减少他人猜中素材的可能性。

物理间隔樊篱。

在录制过程中，用户须要在间隔设备 6-10 英寸（约 15- 25 厘米）的特定空间里完成录制。

在天生过程中，所有数据都将通过苹果的 Neural Engine（神经引擎）在设备本地完成，不必要上传到云处理。

语音合成后，第三方运用如果想利用 Personal Voice，都要得到用户明确授权。

即便第三方运用得到授权利用时，苹果也会采取额外的背景保护，确保第三方运用无法获取 Personal Voice 以及用户之前所录制的语音素材。

如果是苹果「百口桶」用户，天生自己的 Personal Voice 后还能通过 iCloud 同步到不同设备上，并以端对真个办法加密。

自己的声音，失落去了才懂多主要

人是感性的生物，而声音是很强烈的情绪触发器。

有研究指出，当人在听到母亲的声音时，身体开释出催产素水平和跟妈妈拥抱时产生的程度很相似。
另一个研究则指出，听到自己的声音，会增强一个人的自我能动性。

这听起来有点抽象。

但当我们失落去它时，主要性就变得显而易见了。

2021 年 3 月，Ruth Brunton 被确诊 ALS。
那年圣诞，她就已经失落语了。

ALS 患者中，约有 25% 的人患的是「延髓起病型」肌萎缩侧索硬化症，紧张表现是说话障碍或吞咽困难。
这类病人说话会逐渐变得暗昧、带有鼻音，乃至失落语。

Brunton 的行动很果断，确诊后立时找公司去做语音天生。

来回花了一个月韶光，录了 3000 多个句子的语料，但末了出来的结果并不理想。

那家公司用的是一种名为「单元选择（unit selection）」技能。

大略粗暴来说，它便是通过「拼接」来实现语音天生，把语料拆分为大量小的语音单元，然后按需把元素拼起来。

▲单元选择技能下，「Bob」这一词语能被拆分身分歧语音元素，图自《华盛顿邮报》

这种技能天生的语音能听清，但会有点电音，听起来不太自然。

结果便是，Brunton 录制的语料结合了微软一个名为「Heather」的声音，不但声音和自己绝不相似，乃至逼着这英国人「讲」起了美语口音。

困在这个声音里，Brunton「只会在必要的时候说话，不再是由于想说话而说话」。

从前和丈夫打闹谈天的心情消逝了，Brunton 也不怎么乐意参加多人对话。

即便是说「我爱你」，用一个不像自己的声音来说，意义也彷佛被削弱了。

六个月后， Brunton 和丈夫争取回了最初录制的语音素材，找了另一家公司，用 AI 技能合成了一个更像她自己的声音：

这听起来大概有点傻，但重新得到自己的声音让我更有自傲了。

在波士顿儿童医院卖力「增强沟通」项目的 John M. Costello 留神到，那些采取了更真实天生语音的病人，彷佛更能够和亲近的人建立深厚的联结。

2022 年圣诞节，「重获新声」的 Brunton 还用语音录制的一段节日祝语。

然而，圣诞刚过，Brunton 就染上了新冠，末了在今年 2 月离世了。

她离开的那晚，丈夫 David 一整夜都握着她的手：

我们有两年韶光来告别。

我们说好了，我们要说尽统统我们想说的。

弗成思议，如果 Brunton 后来没换上更像自己的声音，她又是否能清闲地说出想说的统统。

无障碍思维点亮灵感，AI 燃起生产力

我一贯认为，无障碍设计所挖掘的，实在便是人类多样性创造的想象力资源。

我们去到和自己有着截然不同生活体验的人面前，聆听更少被诉说的故事和体验，创造出我们之前没想象过，但却能对更多人友好的的新生活办法。

Personal Voice 能让失落语的 ALS 患者重新得到自己的声音；也可以帮助在经历「刀片嗓」的我用自己的声音去和其他人对话；乃至，我也很难避免会去想象，是否该当用这为自己「备份」声音留给亲近的人，以免哪天自己会溘然离世。

而 AI 技能，便是实现这些想象力生产力。

正如杜编辑之前说的，虽然不赶天生式 AI 的热闹，但苹果一贯都把 AI 用来提升用户体验 —— 提升效率，保护隐私。

提升效率，在于提升本地实行的机器学习算法和模型。

除了 Personal Voice 以外，苹果这次预览的另一个无障碍功能 Point and Speak 也采取了本地设备真个机器学习技能。

未来，视障用户在 iPhone 自带的放大器里，结合 Point and Speak 和旁白功能，就能凭自己手指把 iPhone 变成「点读机」 —— 点到哪儿，让 iPhone 给你把笔墨读到哪儿。

去年的「门检测」功能道理也类似，让设备真个机器学习帮视障用户识别出门，并朗读出门上面的信息和周围的标识。

至于隐私，按乔布斯说的，便是「如果你须要他们（用户）的数据，那就向他们（用户）要求。
每一次都如此。
」

这在无障碍设计方面也尤其主要 —— 由于这些功能设计起源便是做事被所谓「常规设计」忽略的人，常常都是更弱势的群体，因此更有必要确保这些用户的隐私不受侵害。

在这个语境下，我们也可开启更多关于数据运用权和透明度的谈论。

苹果这次做 Personal Voice 时，和帮助 ALS 患者的非盈利机构 Team Gleason Foundation 互助。

▲ Team Gleason Foundation CEO Blair Casey（右）

该机构的 CEO Blair Casey 一贯也在推动语音天生公司设定一套标准录制素材设定，让用户能直接录这部分素材，并体验不同公司天生出来的语音效果，而不是像现在一样「盲赌」。

同时，Casey 也主见语音天生公司把用户录制的语音素材数据供应给用户（由于很多用户可能录制后就失落语了），以免他们未来想把这些数据用在其他技能上：

如果更好的技能出来了，你会不想试一试吗？

如果你没法拿回自己的语音素材，你就没法去试。

AI 大概是我们时期最强的生产力。

但是，这力该怎么使，大概以人为本的无障碍设计能给它不少指引。

每期AI知识网

只需 15 分钟iPhone 就能复制你的声音

磁阻划船机真的不喷鼻香吗划船机传授教化

小程序开发语言探析,从Python到JavaScript，技术演进与未来展望