若何设计智能语音助手

近年随着人工智能的热潮，创新者纷纭环绕算力、算法、数据这AI三要向来对某个场景运用落地，个中智能语音在2016年被美国威信杂志《麻省理工科技评论》评为当年十大打破技能，2017年环球智能语音市场规模更已超百亿。

但技能的发展每每不是一挥而就的，综不雅观智能语音家当的发展进程，也算是曲折迂回，它大致可划分为四个阶段：

第一阶段是技能抽芽阶段(20世纪50~70年代)，以伶仃、少量的词汇为主的句子识别，并通过关键词匹配实现大略命令操作，其紧张的标志是AT&T贝尔实验室开拓的Audrey语音识别系统，它能够通过跟踪语音中的共振峰，当识别10个英文或数字时，精确率可高达98%。
第二阶段是技能打破阶段(20世纪80年代)，语音识别和自然措辞处理技能有了较大进展。
智能语音技能研究由传统的基于标准模板匹配的技能思路开始转向基于统计模型(HMM)的技能思路，并再次提出了将神经网络技能引入语音识别问题的技能思路。
第三阶段是家当化阶段(20世纪90年代到21世纪初)，智能语音技能由研究走向实用并开始家当化，以1997年IBM推出的ViaVoice为主要标志。
自此，智能语音产品开始进入呼叫中央、家电、汽车等各个领域。
比如，上世纪70年代由美国国防部远景研究操持局帮助的，旨在支持措辞理解系统的研究开拓事情的操持DARPA。
进入90年代后，研究重点已转向识别装置中的自然措辞处理部分，识别任务设定为“航空旅行信息检索”。
第四个阶段是快速运用阶段(2010年往后)，以苹果Siri的发布为主要引爆点，智能语音运用领域由传统行业开始向移动互联网等新兴领域延伸。
在发达国家，大量的语音识别产品已经进入市场和做事领域并取得很好的效果，比如Siri、Cortana这类集成了视觉和语音信息的内置运用，或者像Amazon Echo、Google Home这样的纯语音设备。

智能语音家当发展进程（来源：广证恒生）

而在人们的日常生活中，相信大家已经对Siri、小爱同学这些手机警能语音助手相称熟习了，在不久的物联网时期，人机交互无处不在，语音作为人类获取信息最自然、便捷的办法，利用频率将会越来越高，当用户利用习气后，智能语音将会融入人们生活的方方面面。

若何设计智能语音助手

纵不雅观打算机用户界面的发展，一样平常可认为是经历了从键盘，到鼠标、到触屏、到语音这样的发展进程，人机交互也逐步经历了基本交互、图形交互、语音交互、体感交互。
在未来，纵然技能已经运用到体感交互，语音交互依然会是体感交互中的主要环节。

History of Computer Interfaces

语音这种交互办法之以是能够迅速发展，得益于语音得天独厚的上风。

因此，语音用户交互界面（英文：Voice User Interface，简称VUI）设计正逐渐走进了产品经理和交互设计师的视野，如何利用产品和设计思维拓展智能语音的运用处景，探索和运用新的交互办法，让技能和人文相领悟，使产品更好地做事于用户，这成为产品经理和交互设计师未来值得磋商的话题。

但目前无论是海内国外，磋商这方面的文章少之又少。
因此

一、智能语音VUI项目的交付物

有产品经理从业履历的人都会清楚产品经理常常撰写的文档有BRD、MRD、PRD等，那么若要设计一个VUI项目，那么它的交付项又应包括什么呢？一样平常来说，它包括了以下四种交付物：

1.示例对话

示例对话是系统和用户之间可能产生交互行为的预设对话，对话看起来就像电影剧本一样，包括两个紧张角色之间来回往来来往对话。
在设计示例对话时，要针对用户可能涌现的各个场景去设计出多种不同示例对话，多种不同的示例对话可以让用户听起来觉得不那么去世板，由于假若只设计一种，用户每次都会碰着相同的反馈，这样会让人听起来更像是一个机器。

此外，还该当考虑到一些非常情形，这样让用户问一些偏门的问题也得到回答，大大提高了用户对系统的预期。

以是设计示例对话和设计后台系统比较类似，以设计电商后台系统为例，用户在前端点击“退货”操作，这时已购买商品所处的韶光节点可以分为未出库、已出库但没发货，已发货、已收货这几种情形，针对每一种情形都要作出相应的处理，如果没有仔细考虑就很难得到一个稳健实用的系统了。

2.流程图

当编写完各种示例对话后，就该当开始写流程图了，流程图是用来展示VUI所有可能发生的路径的图示。
比如一轮对话后，流程图须要展示下一个状态分支的所有办法，办法不一定要罗列所有的交互或示例对话，它也可以是功能的分组、文本的分组等。

3.提示列表

由于语音技能的限定，目前还没有无所不知无所不能的语音系统，以是设计一个提示列表是相对必要的，它可以让用户知道系统真正能做的事有哪些。
如果没有屏幕可以利用配音演员或语音合成来播放提示列表，如果有屏幕则可以多模态展示，将视觉和听觉相结合，如Siri、Cortana。

4.产品原型

如果这是一个多模态产品，有屏幕，支持触摸交互，这个产品原型就和普通的产品原型一样了，比如用Axure制作的低保真产品原型。

二、智能语音VUI的基本设计原则

在设计完基本的流程并完成一些示例对话后，就可以开始专注一些主要的细节，这样才能让系统更加健壮和人性化。

细节一：确认策略

有人可能会问确认策略到底是什么意思？实在，在人与人的沟通中，每个人都是渴望被理解的，但是人与人沟通也会常常涌现理解缺点、听不清楚、词不达意等各类问题，这些都须要谛听者去和对方确认自己所理解的意思是不是便是对方所想表达的意思。

因此在设计VUI也每每须要向用户进行确认，而系统良好的确认策略可以确保用户体验，担保对话的流畅度和准确度，让用户知道系统已经理解了自己的话。
在考虑确认策略的时候，每每须要考虑以下几点：

过度的确认虽然可以担保信息的准确性，但是也会让人厌烦，因此选用得当的确认策略方法也是非常主要的，它能更有效率地担保信息的准确性，以下便是一些常见的确认策略的方法。

细节二：是采取命令-掌握模式还是对话模式？

VUI一样平常都是采取“命令-掌握模式”，每当用户想说话的时候，必须给出明确的指令，但是随着用户对系统的对话性哀求升高，另一种更自然的轮流对话设计模式越来越遍及，如何把这两种对话模式合理利用起来也是设计者须要考虑的问题。

为了让对话更加人性化，一样平常在对话模式中加进一些对话式标识，让用户理解到交谈的进展和情形，让对话更加自然，用户的参与度也会更高。

加进对话式标识的最佳例子莫过于是2018年谷歌I/O大会中Google Assistant和理发店之间的语音互动了，下面是双方之间的对话。

加入了对话式标识的Google Assistant表现的流畅自然，一句“嗯哼”的通用确认更是出乎所有人的猜想，让人类丝毫没有把稳到自己实在是在和AI对话。

细节三：非常缺点如何处理？

谷歌的设计主管ABI JONES说过：

“当你与人类交谈时，永久不会涌现不可规复的缺点状态。
”

而系统总会发生缺点，若没有对应的非常处理，则是不可规复的缺点，这会降落用户对系统的期望值，因此如何优雅地处理缺点是每一位设计者须要着重考虑的。

细节四：其他的一些设计原则

美国著名措辞哲学家格赖斯，在《Logicand Conversation》(1975)一文中认为在人们交际沟通过程中，沟通的双方都在故意无意地遵照着互助原则，以便更加高效率地完成交际任务，他提及到在发言中每每遵守的互助原则中的四个范畴：

因此，若要打造一个更加类人的VUI，符合互助原则可以让用户免受困惑和挫败，因此，下面说到的一些基本的设计原则也须要持续打磨和优化，以便符合互助原则。

末了，虽然VUI在方方面面都在模拟人类的沟通办法，但是VUI更像是一个工具型产品，让它更像人的目的是为了让系统更高效地办理用户的问题，上面提及的观点基本上都是来自互动式语音应答（IVR）的履历总结发展的，充其量只是VUI设计的冰山一角。

倘若有机会，下一篇文章还会对每一个细节详细展开陈述，还有阐述诸如该当如何处理否定、如何应对不同语境、应怎么设计唤醒词等进阶技巧，或者是对语音识别技能的技能先容。

作者：曦(个人博客：www.olympusmons.cn)，多年互联网产品设计履历，曾从业过多款不同行业的产品策划和运营。

本文由 @曦原创发布于大家都是产品经理，未经作者容许，禁止转载。

题图来自 unsplash，基于 CC0 协议

每期AI知识网

若何设计智能语音助手

原创☞随意AI制作

C语言宏的奥秘与魅力