若何从零开始搭建智能外呼系统

一、媒介

随着人工智能技能的发展，近半年来呈现了大量基于人工智能的呼叫中央业务做事商和集成商。
仅电销机器人这一个方向就至少有近百家公司正在推广运营，包括百度、讯飞、智齿、硅基、百应、箭鱼、容联等。
商务上的需求非常强烈，全体市场都飞快地热闹起来。

一套可供应saas做事的智能外呼系统，看起来功能并不繁芜。
一个网站可注册、充值缴费开票，登录后在后台页面选择或者定制外呼话术脚本，新建外呼任务并导入外呼号码列表，明确外呼策略（韶光段、重呼次数），设置外呼机器人数量（同时拨出几个号码），点击开始。
然后就可以看着进度条走完，外呼机器人按照列表一个个打电话出去。
任务完成后，可以查看外呼结果列表。

那么如何从零开始搭建一套对外可以供应saas做事的智能外呼系统呢？

若何从零开始搭建智能外呼系统

二、总览

我们先列出，搭建这样一整套系统须要哪些技能和资源：

运营商线路：供应方包括三大运营商、集成线路商，这是我们打电话出去要交电话费，必须涉及的供应商。
呼叫中央设备：商用设备原厂包括avaya、genesys、cisco、华为等，集成商很多，开源的也有一些。
在发起外呼任务时，saas平台是把外呼要求发给了呼叫中央设备经由运营商线路而拨出去的。
AI能力：包含语音识别、语音合成、语义理解。
这便是外呼机器人的核心组成部分，它能听懂接电话的人所说的话、表达的意思，并回答和勾引对话。
saas做事平台：即用户可以注册、登录、缴费、上传呼叫列表、发起外呼任务、外呼结果查看的网站，这个是终端用户唯一可以看得到的前端界面。

大略关系示意图如下：

上图中四个紧张模块，个中一些难以自研，只能选择供应商：

AI能力部分（中文ASR/TTS）基本已经格局稳定，没太多可挑选的。
运营商资源这块儿，可以选择大牌老厂的码号线路资源多的然后便宜的去谈互助，一方面外呼运用在催停止景时随意马虎被封号，同时话费再便宜也好几分钱一分钟，也是主要的本钱。
呼叫中央设备，由于涉及不少接口对接调试，优先选自己熟习的，其次选便宜的且技能资料多的。
末了是外呼saas平台，可能这是各个电销机器人做事商/集成商最随意马虎实现自研的部分。

明确了涉及到的技能和资源之后，再明确一下培植步骤。
由于各个厂商都有各自的资源和能力，培植办法也各不相同，大略来说可以分成以下几类：

有运营商资源的，等着别人找上门来就行了。
呼叫中央厂商，一定有已长期互助的运营商线路资源，手里也有呼叫中央设备+职场，也有技能职员。
于是就选择自研saas平台，然后找AI能力厂商互助供应ASR/TTS/NLU。
AI能力厂商，尤其以NLU起身的在线客服类厂商，常日会选择接入百度/讯飞的语音能力，然后去找呼叫中央类厂商互助。
啥都没有，只有几个技能职员的，选择自研saas平台，接入呼叫中央设备、AI能力、运营商资源。

作为初学者，为了自行从零开始搭建一套对外可以供应saas做事的智能外呼系统，身份一定是第四种，啥都没有，啥都要干。

以上这四部分，核心角色是呼叫中央。
AI只是插上了想象力的翅膀，但是没这翅膀，呼叫中央还是呼叫中央，但是AI就只是空中楼阁了。
业务明确可落地的呼叫中央才是想象力的基石，这一点与CV和安防的关系很像。

三、呼叫中央搭建1. 通信事理

目前对呼叫中央比较普遍接管的定义是：呼叫中央因此打算机电话集成（CTI）技能系统为根本，将打算机的信息处理功能、数字程控交流机的电话接入和智能分配、自动语音处理技能、 Internet技能、网络通信技能、商业智能技能与业务系统紧密结合在一起，将公司的通信系统、打算机处理系统、人工业务代表、信息等资源整合成统一、高效的做事事情平台。

最新一代呼叫中央架构NGCC（Next Generation Call Center）如下图所示：

详细如何理解呢？

先从最大略的提及：个人A给个人B打了个电话。

流程：A→PSTN→B阐明：PSTN是Public Switched Telephone Network，公共交流电话网络，也便是运营商的电话网络。

然后来个繁芜点的：个人A给呼叫中央400xxxxxxxx打了个电话，拨通后先听到了录音，“您好，找B类接线员说话请按0号键”。
按了0，然后听到录音，“排队中，请稍后”。
几分钟后接通，B0026号接线员接了电话。

流程：A→PSTN→PBX→IVR→ACD→B

阐明：PBX是Private Branch Exchange，用户级交流机，这是企业内部的局端用户级交流机，全体呼叫中央的出入口设备。

PSTN到PBX之间是中继（分成仿照中继、数字中继、IP中继），这是将通讯公司的局端交流机与企业内部的用户级交流机（PBX）相连的通讯线路。

IVR是Interactive Voice Response，互动/交互式语音应答，我们把它叫语音导航。
实现的是类似拨打10086后听到录音说，xx业务请按x，这个环节。
紧张用场是根据业务分流来电，进入对应的排队机。

ACD是Automatic Call Distribution，自动电话分配，也叫排队机。

再来个繁芜点的：个人A给呼叫中央400xxxxxxxx打了个电话，拨通后先听到了录音，“您好，您想找哪类接线员？”

个人A说，“B~~”。

然后很快接通，“您好，这是B0026号机器人，有什么可以帮您？”

个人A说，“我不想跟机器人说话，泥奏凯~”

然后听到录音，“为您转接很贵的真人客服，排队中，请稍后”。

几分钟后接通，B1026号真人接线员接了电话。

流程：A→PSTN→PBX→IVR（→ASR→NLU）→ACD（→ASR→NLU→DM→NLG→TTS）→ACD→B

阐明：现在智能的部分，也便是我们说的语音机器人的部分，分别在IVR和虚拟坐席处表示。

IVR部分，不再须要提示按键，而是直接问来电方须要办理什么业务，然后识别语音、理解意图后，进入对应的业务行列步队排队。
排队后可以等待真人客服接待，也可以由机器人先行接待。

机器人（实际是做事器资源）资源空闲时，直接接待，进行语音对话，对话过程便是语音识别、语义理解、语音合成的多次调用，部分业务涉及业务数据接口对接调用，比如查询话费、积分。
并可以根据需求自动或者选择转人工，再次进入排队，期待真人客服接待。

个中IVR部分示意图如下：

2. 集成履行

上面提到的全部流程中，PBX、IVR、ACD等部分基本都是由我们说的呼叫中央设备商供应，产品有三种类型:板卡式、交流机式、VoIP形式。

交流机式比较适宜大型职场，例如三五百人以上，硬件价格五位数。
交流机领域，紧张有：avaya、genesys、cisco、华为、复兴，个中最常用的两家比拟下来，avaya比genesys便宜（拜会文章）。

板卡式适宜中小型职场，比如几十人到两三百人，硬件价格四位数。
基于板卡培植呼叫中央的步骤，可以参考利用三汇板卡的这几篇（紧张前4篇讲事理）。

选择板卡之前，先要确定选用哪种中继线路，比如：利用常规的数字中继，那么就须要选择数字板卡，这个找板卡的供应商问就行了。
常日来说呼叫中央要购买的一条E1数字中继报价五位数/年，由用户级交流机将局真个光旗子暗记转换为30路仿照旗子暗记，也便是支持30个人同时接打电话，通话费会其余按照实际呼出分钟数收取。

近期一个实际落地项目是选择了数字中继+Asterisk（开源VoIP PBX纯软方案），（可参考：安装配置，调试）示意图如下：

详细的软件业务细节，比如：常规客服中央须要的管理模块、配置模块、工单做事、坐席做事、报表模块、CRM，还有比如：坐席班长监听、通话插入、质检，录音文件管理等整套软件细节，不做详述。

四、AI能力对接

在详细落地中，这个领域的常规参与者常日具备呼叫中央能力或者AI能力个中一种，而紧张的对接点也就在于AI能力与呼叫中央设备去对接，而ASR/TTS与呼叫中央设备对接的常规协议紧张是mrcp/sip。

媒体资源掌握协议（Media Resource Control Protocol, MRCP）是一种通讯协议，用于语音做事器向客户端供应各种语音做事(如语音识别和语音合成)。
有两个版本的MRCP协议，版本2利用SIP作为掌握协议，版本1利用RTSP。

实际对接的时候，会碰着不少技能问题，有的呼叫中央厂商会哀求ASR/TTS引擎做私有云支配，这样避免了内外网穿透时防火墙的诸多设置和语音流的时延。
这对基于语义起身（并购买语音能力）的公司是一个小小的难题。

1. 语音识别

现有技能中实现一次性语音识别范例的流程时序，详细包括一下步骤：

MRCP Client发送INVITE给MRCP Server要求建立会话，携带MRCP Client侧的SDP；MRCP Server回答200表示要求已经成功接管处理，携带MRCP Server侧的SDP；MRCP Client随后发送ACK证明200已经收到，至此一个SIP会话成功建立；MRCP Client发送RECOGNIZE给MRCP Server要求语音识别，按照MRCP协议规定的格式携带干系的语音识别掌握参数，并且指定语法文件路径；MRCP Server吸收RECOGNIZE要求，编译语法文件，回答200给MRCP Client；MRCP Client此时开始根据之前协商好的SDP，开始源源不断的发送RTP语音流给MRCP Server；MRCP Server吸收RTP语音流，当检测到用户开始说话时，发送START-OF-INPUT事宜；当MRCP Server根据语法文件定义得到识别结果时，通过RECOGNITION-COMPLETE事宜返回识别结果；MRCP Client发送BYE给MRCP Server结束会话；MRCP Server发送200给MRCP Client确认结束；MRCP Client通过上述流程得到MRCP Server供应的一次完全语音识别能力。

电话渠道的语音流采样率一样平常是8k 16bit，这种语音识别的准确率远远低于app等渠道采集音频的识别率。
再加上人在打电话时说话办法相对随意，导致语音识别部分成为了影响电话机器人能力和效果的主要瓶颈。

2. 语音合成

实现语音合成范例的流程时序，详细包括一下部分：

SPEAK:向做事器端供应文本,启动语音合成（c→s）。
STOP:如果做事器正在语音合成资源,则停滞语音合成与语音流（c→s）。
PAUSE:关照做事器资源停息语音合成与语音流（c→s）。
RESUME:关照停息的语音合成资源连续进行语音合成与语音流（c→s）。
CONTROL:变动语音合成资源干系参数,从而影响合成的语音流（c→s）。
SPEAK-COMPLETE: SPEAK要求已经成功处理（s→c）。
SPEECH-MARKER:做事器正在处理语音标签时,碰着要求头字段 Speech Marker中标记的tag（s→c）。
BARGE-IN-OCCURRED:客户端检测到barg-in-able事宜或DTMF数字时,发送该关照做事器（c→s）。

现在主流厂商为了使通话效果尽可能仿照真人外呼，除了涉及业务接口调用的数据查询利用了TTS，基本采纳整句录音的办法。

3. NLU部分

准确来说，一个大略的对话机器人系统框图，包括语音识别（ASR）、语音合成（TTS）、自然措辞理解（NLU）、对话管理（DM）、自然措辞天生（NLG）几个模块组成。
而这一部分便是智能外呼系统的主流玩家——NLU类（智能客服）厂商的强项了。

对付呼叫中央从业者来说，ASR/TTS/NLU犹如黑盒一样平常，只暴露出接口。
而海内语音能力的供应商，要么很土豪，少量QPS不要钱，要么就是非常标准的报价五位数一条线路/年，实在也没有太多可以选择的余地。

对付只有NLU能力的厂商来说局势也是一样，除了须要接入ASR/TTS的能力，还须要去探求可以互助的呼叫中央，并且想办法拿到尽可能低的话费报价。

五、行业现状

经由一些调研和竞品剖析，行业内虽然有至少近百家公司在推广和运营电销机器人，但绝不客气地说，大部分都不及格。

一星级 ★

官网粗制滥造，类似有漂浮闪动flash，反复频繁提示你联系商务。
对各种根本能力只有暗昧其辞的描述，没有录音、演示、试用场径。

二星级 ★★

有录音可以试听，但明显可以听出来，部分是真人直接对话录音，而并非机器人与真人的通话录音。
部分多少家公司用于试听播放的录音文件完备同等，不知道谁抄谁的。

三星级 ★★★

有录音可以试听，乃至也有演示视频。
录音可能仍有作假嫌疑，演示视频部分能觉得出来是按照特定的对话脚本去走流程，但是可以完成多轮对话了，语音时延在2s以内，属于基本可用。
不支持NLG，机器人所说的内容均为录音。

四星级 ★★★★

支持NLG（Natural Language Generation），支持字段调用，支持TTS合成与录音无缝衔接。
但由于TTS调用的是某几个大厂的api，而录音多数为自己根据业务需求去录的，会涌现衔接生硬的问题。
办理方案是直接全文TTS，或者选择与TTS音色相靠近的播音员进行录制。
对打断的处理有待优化，要么不支持打断，要么打断后处理办法粗糙（如重播、多次打断后多次直接播放对应录音）。
语义理解能力相对较弱，但合营相对完善的话术策略，可以保持相对可接管的兜底。

五星级 ★★★★★

支持对话中识别关键词打断。
如先容推销信息时被打断问价格，则直接停下并急速回答价格信息。
报价模式不局限于“线路xxxxx元/年，话费0.xx元/分，话术脚本xxxx/个”的模式。
如纯录音外呼机器人0.xx元/分，含NLG的外呼机器人x.xx元/分。
除了根据业务场景定制话术脚本之外，基于已有的积累（如呼叫中央金牌电销的通话记录等）形成特定行业的金牌话术模板，只须要填入分外字段信息即可利用。
语义层面，支持跨节点/返回节点问答（比如：先回答说我不是本人，进入到下一个节点后，客户再说一次我是本人，系统仍能处理）。
外呼结果剖析，目前阶段常日机器人外呼只用来做第一轮初筛，须要对通话内容进行语义判断，按需剖析是否须要第二轮人工跟进。
通话中转人工，是否许可在机器人外呼过程中被动或主动转人工，这一项在实现时靠近于IVR部分机器人应答+转人工的模式，在流程设计和资源配置上相对有难度。
根据通话内容自动判别二次回拨，如被奉告“现在没空接电话，10分钟后再给我打”（机器人二次呼叫），或者表示“有兴趣，需转人工跟进”后经由预测式外呼后回拨到用户号码上（真人接线）。

六、商业落地

商务模式比较大略粗暴，粗略的本钱核算如下：

首先运营商的通讯资源，几分钱一分钟的话费本钱，以及均匀下来一千旁边一起的中继线路用度。
其次是呼叫中央厂商的做事器、带宽、呼叫中央设备license/运维等本钱。
再次是AI能力的利用费，比如：讯飞公开报价2w每线路每年。
末了是外呼saas平台的培植和运维本钱。

那么电销机器人厂商，竞争这么激烈，谁才会笑到末了呢？

一是要有价格相对低廉的运营商资源和语音能力资源，这样可以明确的报出一个行业内相对较低的价格。
比如：完备不按照主流友商们1-3w/线/年的报价办法，直接来几毛钱一分钟随便打，随打随充。

二是呼叫中央资源方，最好是带客进场，别从0开始找客户，直接把现有的呼叫中央B端客户转化一部分成为机器人电销客户。

三是语义的能力，尤其是话术模板的设计能力。
这一块儿很随意马虎被忽略，但是这反而也是产品经理可以出成绩的地方。
一样平常来说可以拿呼叫中央多年积累的语料去剖析一套最佳话术模板（堪比金牌发卖的万能对话体系），然后做ABtest也好。

从mvp开始逐渐增加紧张话术分支也好，生理学根本必须要有，必要时可以从游戏成瘾机制等角度入手，《恋与制作人》的对话技巧学起来，一句话怎么说能让接电话的人最大概率的顺着自己的思路走，达成目的，从而形成特定细分领域机器人话术模板，得到最佳的外呼效果（接通率、通话时长、电销意愿、催收意愿）。

这一块儿虽然很细，但是反复迭代之后可以以一敌万，乃至达到现在各种智能音箱背后核心系统一样的地位。

四是外呼saas平台。
这部分是web类产品经理的天下了，详细功能点就不详细列举了，友商们的网页和后台过一遍，基本好坏也能判断出来了。

至于现在此时此刻被视作亮点的可视化外呼脚本编辑，笔者个人认为实在是鸡肋，普通人根本用不好，脚本逻辑只能做得很大略，多轮对话、跨节点对话效果也不好，反而很随意马虎导致客户放弃。
还不如干干脆脆给个可设置变量的场景化标准模板（金牌话术模板由产品经理供应），外呼试用效果好，客户更随意马虎买单。

七、结语与参考资料

这一套智能外呼系统搭下来，不仅仅可以做电销机器人，可以做各种外呼，也可以做IVR语音导航、呼入电话客服。
“NLU+CallCenter”就像这几年“CV+安防”的结合一样，也会如商汤科技联合创始人林达华所说：

“中间也存在风险：一边是从运用端往前走，一边是从技能端今后走，大家都想盘踞技能上的制高点。
这须要大家建立一种信赖和共赢机制，只有这样互助才能长久”。

AI虽然火热受追捧，但详细项目落地并被市场认可和买单并不是那么随意马虎。
作为入行并不久的初学者，考试测验借以此文抽丝剥茧梳理了从0开始搭建智能外呼系统的全流程，才疏学浅囿于见闻，疏漏和不当之处在所难免，权当抛砖引玉。

诸多细节限于主题和篇幅不做详述，如有任何问题，欢迎随时互换。

参考资料：

《呼叫中央技能》，詹舒波等，公民邮电出版社，2015-09-01 MRCPv2概述 MRCPv2 – Speech Synthesizer Resource MRCP协议学习条记MRCPv2 协议及其在分布式语音资源办理方案中的运用华为在审专利：一种语音识别方法及装置百度-智能呼叫中央 Java SDK文档

#专栏作家#

hanniman，大家都是产品经理专栏作家，前腾讯、现创业公司PM；专注于人工智能领域的产品化研究，关注人机交互（特殊是语音交互）在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验；善于对创业团队管理、个人发展提出实战型的建议方案；知乎/简书/微博帐号，均为hanniman。

题图来自 Pixabay，基于 CC0 协议

每期AI知识网

若何从零开始搭建智能外呼系统

百度大年夜脑的融合神器给你不一样的换脸体验

这些插画食物包装各有特色休闲零食烘焙产品

每期AI知识网

若何从零开始搭建智能外呼系统

百度大年夜脑的融合神器 给你不一样的换脸体验

这些插画食物包装各有特色休闲零食烘焙产品

百度大年夜脑的融合神器给你不一样的换脸体验