B站UP主硬核低廉甜头智能音箱有ChatGPT加持才是真・智能

机器之心编辑部

在大型措辞模型的加持下，智能音箱领域的「拐点」即将到来？

在智能音箱风靡的那些年，很多人都希望能与音箱来一场深度对话。
可惜事与愿违，智能音箱的对话能力显然达不到人类的哀求。
如今，智能音箱的市场红利期已经由去，昔日光环消退，逐渐不再为人提起。

一位名为「GPTHunt」的 Up 主也是一样，自述是智能语音音箱的「轻度爱好者」。
只是失落望的次数太多了，也就不再抱有希望。

比如，他买过亚马逊的 Alexa 音箱，但创造自己英语水平不太够，此外音箱产品设计也不足 local，试用了一阵就弃坑了。

他也买过网易三音音箱，听音乐、设闹钟都挺好的，但「须要用到脑筋的问题就不能指望了」。
而且这款音箱还会有一些「抽风」时候，比如在自己打电话的时候溘然接话，或是在看电影的时候溘然出声……

苹果家的 Siri 同理，你可以命令它设置闹钟，咨询它韶光和蔼象，但完备不能评论辩论有些深度的问题。

这些烦恼，都可以归结于 AI 的对话能力不足用。
但近段韶光面世的大型措辞模型 ChatGPT，却给了这位 UP 主新的希望。

某天，他溘然想到，何不用 ChatGPT 改造一下音箱，低廉甜头一款智能且强大的语音助理呢？

视频地址：https://www.bilibili.com/video/BV11M411F7Ww/

低廉甜头过程

作者设计的架构草图如下，从语音输入到音箱回答，大致分为四个步骤：唤醒、语音识别、ChatGPT、语音合成。

硬件方面，自然是极客的不二之选：树莓派。

作者翻出尘封了几年的树莓派 3 Model B，创造它并未自带麦克风。
只能在某宝光速下单，一边等快递，一边先用电脑调试。

接下来便是系统搭建事情了。
首先要实现的，便是唤醒词检测。

唤醒词是一个分外的词或短语，用于在说出它时激活设备，不说时让设备就寝，也被称为「热词」和「触发词」

这里隐含一条规则，便是在唤醒前绝不许可偷听。
然而实际上我们无法确认音箱到底有没有在偷听，以是只有自己利用开源代码去实现，才能确认音箱在唤醒之前不会偷听。

想必大家都听过一些常见的唤醒词，比如「Hey Siri」、「小爱同学」、「小度小度」。
自定义唤醒词同样要遵守相应规则：一是避免利用过短的单词，以免产生误报；二是出于用户体验的考虑，唤醒词还要尽可能短；三是只管即便选择不同发音的单词，组合特色更明显不易误报。

作者在这里利用的检测框架是 Porcupine，该框架对非商业运用免费开放，且支持多个词，唯一的遗憾是暂不支持中文。

终极，作者选择的唤醒词是「Hello Chat」。
经由在线录音和演习后，得到了下载即用的模型。
作者编写了一个脚本来运行唤醒词检测，检测之后会回应一声「咦」。

唤醒之后，作者用基于 Python 的语音处理库「PyAudio」来录制声音，如果斯时你不想研讨项目文档，可以直接让 ChatGPT 给出示例代码，再做些微调即可。

第二步便是语音识别了，作者选择了微软 Azure 的在线 ASR，识别比较准确，速率也很快。
这项功能会供应静音检测，当然也可以利用 Porcupine 供应的 cobra 静音检测功能，来判断语音输入何时结束。

第三步便是将 Azure 的识别结果发送给 ChatGPT，收到回答后再进行语音合成（TTS），通过音箱播放出来。

经由一番调试之后，网购的麦克风也到货了，将整套系统移植到树莓派，大功告成。

效果展示

常日，你会问智能音箱什么问题？

首先，作者讯问了一个哲学问题：「用 10 个字回答人生的意义」。
音箱用 5 个词语完美回答了这个问题：「探索、发展、分享、欣赏、戴德」，字数也刚好是十个字。

然后，作者又问了一个和科技行业有关的问题：「马斯克和乔布斯谁更厉害」。
智能音箱的回答首先解释「这个问题没有确切答案，两个人都在不同的领域取得了巨大造诣」，然后分别先容马斯克和乔布斯两个人的造诣。

当然，除了提问，你也可以和这款智能音箱打呼唤，它就像是你身边的一个小助手：

此外，自己构建智能音箱还有一个好处是可以查看音箱事情时实行的代码，剖析程序占用的资源。

最主要的是，作者可以测试音箱的相应速率，并做出改进。
初版智能音箱听到问题后须要 10-20 秒才能作出回答，改进之后的第二版则只须要 4-6 秒，这个韶光紧张是 ChatGPT 的网络 + 打算韶光开销。
此外，作者还表示这款智能音箱的功能可以无缝迁移到其他平台。

末了，作者还挖了个坑：ChatGPT 在连续、关联性对话上的能力，又会如何提升音箱的智能水平？

每期AI知识网