王砚峰揭秘搜狗AI体系自然交互在左常识计算在右核心是措辞

这些看起来神奇的运用背后，搜狗是怎么想的、又是怎么做的呢？

在MEET 2020智能未来大会上，搜狗AI交互奇迹部总经理王砚峰，分享了搜狗的技能路线图与AI实践。

我们根据其演讲速记，整理了核心不雅观点，希望从搜狗的AI落地实践中，你也能瞥见AI落地过程中的新代价、新边界和新格局。

关于MEET2020智能未来大会：量子位主理，现场20多位行业大咖分享，1000多名行业不雅观众参与，线上有近百万从业者通过直播参与不雅观看和互动，包括新华社在内的数十家主流媒体宣布，活动整体线上总曝光量超过千万。

王砚峰揭秘搜狗AI体系自然交互在左常识计算在右核心是措辞

要点

1.当传统行业面临增长瓶颈，通过AI赋能可以带光降盆力变革和打破，终极转化成行业代价和用户代价。

2.硬件有两个发展趋势，一方面朝着更便携的办法发展，另一方面硬件的IO更加智能。

3.以措辞作为核心，左边是自然交互，右边是知识打算，在自然交互中做语音、图像，在知识打算当中做问答、翻译、对话，这便是全体搜狗的AI技能体系。

4.AI同传现已不再翻车，虽然赶不上顶级人类同传，但能做事更多场合。

5.针对用户的问题，机器实时要求全网的结果，整理之后再来回答，这一定是未来搜索的形态。

王砚峰演讲分享全文

注：量子位在不改变原意的根本上进行了编辑整理

各位现场的媒体和行业朋友，大家下午好。
现在由我来给大家分享一下搜狗在2019年AI方面从产品到技能的思考，以及我们所做的打破。

从录音笔看AI硬件趋势

搜狗录音笔，是我们去年3月份发布的一款产品，这款产品从3月份发布至今，线上平台不管是单品销量还是发卖额都是第一名。
很多的媒体朋友都跟我说，现在他们已经标配了搜狗录音笔，如果短缺了这个工具，记录和写作的效率就会受到影响。

随着手机行业的兴起，录音笔行业是在逐步萎缩的，每年都是低落的趋势，右图的黑线是去年电商访客数据。
但是搜狗录音笔上线后，录音笔的搜索量反而增长了。

这就解释，当我们面向一个产生增长瓶颈的传统行业的时候，AI技能可以赋能到传统行业，带光降盆力的变革和打破，终极转化成行业代价和用户代价。

而且，搜狗录音笔在京东已经有很不错的好评和复购率了。
当一个硬件产品在像京东这样的平台上产生比较不错的复购率的时候，能在一定程度上代表这个产品在全体网民、用户群体和行业内的口碑。

我们不仅自己做了一个产品，还希望能够把我们的能力赋能到录音笔行业当中，帮助全体行业一起往前走。

今年8月份，我们连同索尼录音笔、爱国者、纽曼等品牌，成立了一个AI创新同盟，把我们的AI能力供应给录音笔厂商，实现他们产品的AI化，包括帮他们实现好的用户体验和增值做事。

现在大家看到的一些新的爱国者录音笔、索尼录音笔，出厂的时候会标配搜狗听写做事，这个做事便是搜狗从技能到产品方面的AI沉淀。

搜狗为什么要做AI录音笔这个产品呢？这后面实在是我们对付全体AI硬件的思考。

硬件大概有两个发展趋势，第一个发展趋势便是朝着更便携的办法发展。
以前说硬件是电脑，后来有了Pad，后来有了手机、腕表、耳机，向着越来越便携、灵巧的办法发展。

其余一个发展趋势便是硬件的IO更加智能。
以前我们最早用电脑的时候，只能用键盘和鼠标；而现在用手机的时候，很多时候就已经在用语音了。

而且不管是录音笔还是耳机，未来的交互办法更多都是语音，以是本身它会朝着更IO的方向发展，尤其未来它会接管人的感官，乃至有一些生理入侵。
实在已经有一些行业大咖身体里植入了一些芯片，让芯片给他更好的赋能。

总结下来，实在我们搜狗做AI硬件的定位是三点：

第一点，我们希望我们的AI硬件赋能于人，能够去提升人的能力，提升人的效率，提升人能力的边界。

第二点，我们希望我们的AI硬件做得更便捷、小巧，方便每个人携带，而不是做一个在家里的音箱、电视，这不是搜狗AI的发展方向。

第三点，我们的AI硬件以措辞为产品的核心，我们希望通过AI的能力在措辞方面对用户、对网民做全方位的赋能。

搜狗AI技能体系

怎么解读措辞AI这件事呢？首先大家该当都会理解措辞实在是人跟人之间沟通的载体，是知识承载的载体，是信息承载的载体，以是措辞在社会的核心当中起到了绝对主要的浸染，是信息的推动者，信息的发展者。
人类社会自从有了措辞，就发生了巨大的变革。

以是，措辞是人工智能的一颗明珠，我们一贯把措辞当成我们最核心的AI发展方向和打破点。
我们办理了视觉问题、办理了语音问题，但是环绕着措辞，包括本日NLP的问题仍旧没有得到打破，以是我们希望能够环绕措辞去尽快推动产品的打破，推动技能的进步，以是搜狗断言，我们希望能够在措辞方面做一个行业的创新者，去做AI措辞技能行业的引领者。

我们做AI的时候，为什么以措辞为核心呢？由于输入法和搜索这两个搜狗的传统产品，实在都是环绕自然措辞，输入法是为了让用户有更好的词库、更好的自动输入的能力，让大家的打字效率得到提升。
搜索便是环绕措辞这件事做更好的信息获取。

以是这是套以措辞为核心的AI体系。

在这个AI体系下，我们分成了两个方向，一个是自然交互，自然交互办理的是人与机器之间的沟通能力；另一个是知识打算，知识打算办理的是，我怎么通过措辞的能力从大量的信息当中做知识的挖掘、做对话、做问答。

终极会形成两条产品线，第一条产品线便是AI硬件，环绕自然交互和措辞为核心，做各种硬件形态的探索。
第二条产品线，我们会环绕知识打算做各种垂直问答，比如搜狗明医，未来搜狗搜索也会提升知识做事能力。

以是终极这两件事串起来便是智能助理。
搜狗希望以措辞AI为核心，做用户在各个场景下的智能助理，比如翻译是出国场景下的助理，录音笔是记录信息场景下的助理，而问答是获取信息场景下的助理。

我们希望做到措辞AI技能的引领者和创新者。
以措辞作为核心，左边是自然交互，右边是知识打算，在自然交互中做语音、图像，在知识打算当中做问答、翻译、对话，这便是全体搜狗的AI技能体系。

搜狗的语音识别

除了录音笔，搜狗目前在技能跟产品上还有很多值得骄傲的点。

第一，便是语音识别。
搜狗在语音识别方面是相对做得比较早的，搜狗输入法今年单日语音输入调用次数峰值超过了8亿次，是目前规模最大的语音输入法。

但是光有语音输入，我们以为不足，由于语音输入的场景是人朝着机器去说一段信息，然后机器把信息变成笔墨发送给对方。
而在录音笔的场景下是语音的记录，而且记录过程中仅有输入这么大略的一件事。

像大家常常面临的中英文稠浊的问题，我们已经办理了。
除了纯挚的语音识别，我们先做了说话人的识别，让机器区分这句话是谁说的，这在录音笔场景下是非常关键的能力。
同时很多场景中都有一些噪音，我们今年做了一件事，不止用阵列，而是用深度学习来降噪，把人的声音跟背景音做效果很好的切分。

采访中有很多背景噪声和其他人的声音，以是我们听采访的时候听不清楚。
我们提出了ClairVoice降噪算法，通过这个算法的过滤，噪声去掉了，原来的声音变得清晰了。
大家看电视新闻的时候也会觉得到，很多采访的场景是噪声很大的，比如大风尚象的室外、飞机场等，通过AI降噪技能，不雅观众实在已经听不到噪声了。

搜狗的语音合成

语音合成方面，随着我们在深度学习上的努力，通过我们国际领先的基于WaveNet、WaveRNN的语音合成技能，我们可以做到更好的效果。

我们用罗辑思维录音做了语音合成。
比拟以前的语音合成，这种语音合成的效果已经更靠近本人了，它已经可以在很多场景下利用了。

但是我们会以为光有语音合成不足，由于语音合成目前仍旧做不到情绪丰富、抑扬抑扬。

以是我们做了一个技能叫语音变声，比如要给一个大IP、名人做合成，我们把这个大IP的声音采集下来建立一个模型，形成一个声音的皮肤，背后会有一个音频的演出者，这个演出者是带有感情的，是抑扬抑扬的，然后我们把这个大IP的声音皮肤贴到这段音频上，就能让这个大IP的声音开始情绪丰富的说话。

语音变声会有很多运用处景，比如很多父母自己没有韶光给家里的小孩讲故事，我们就希望能够把父母的声音皮肤刻画出来，未来他的声音皮肤直接贴到“凯叔讲故事”的音频上，就能够实现用爸爸妈妈的声音很有情绪的给小朋友讲一段故事。

比如，我们把凯叔的声音，用王小川14分钟的语音数据做了演习，形成了这样一个“作品”实在小川平时讲故事的情绪肯定不像机器合成出来的这么饱满，包括这14分钟的语音数据听起来非常的平，因此我们在这个场景下会对父母们有很大的帮助。

我们前段韶光做了一个里程碑式的考试测验。

此前，语音合成一向很难放到付费音频的领域来利用，由于付费音频听众对音频质量有哀求，实在是一个音频演出，交付的是一个音频内容，听众要为这件事买单，以是目前所有的付费平台都不敢用机器合成的办法进行付费音频的生产。

就在前段韶光我们在得到平台上跟梁宁互助，用转述师的声音套上梁宁的声音皮肤来合成音频。

这样出来的效果既保留了演出的部分，同时还带了梁宁的音色和发音习气，这种方法办理了很多大咖、IP音频生产中的痛点，也是环球第一次在付费音频领域做语音合成的考试测验。
之后我们会和更多的IP互助，也会看到更多这样的内容。

搜狗分身

同时，我们以为有措辞不足，由于未来人机交互的界面一定有语音又有视频，以是我们做了分身技能，去年年底，我们联合新华社推出了AI合成主播，为了让虚拟分身的效果变得更加逼真，到现在为止我们经历了四代技能演化。

今年年初的时候，虚拟主播的面部表情和动作还是相比拟较僵硬的，后来我们做的效果就非常的逼真了，如果我不说这是机器合成的话，可能很多朋友分辨不出来这个到底是机器做的还是真人。

我们发布了第四代合成分身技能往后，还可以做更多语种，比如我们做了第一个俄语的合成主播。

其余，这项技能也在很多的行业落地，比如说我们帮安然做了AI客服。

由于安然有一个需求，在做贷款审核的时候须要一个面对面的客服来进行审核，这个过程是通过网络完成的。
以是我们帮安然做了一个虚拟客服的形象，这个客服早就已经上岗了。

目前，我们的AI合成主播在互联网法院、新华社、央视，包括在安然已经产生了实际的运用。

搜狗AI翻译

搜狗为什么做翻译？

由于搜狗在做输入法、做搜索的时候，会碰着跨措辞信息表达和获取的问题。

现在，华语是环球第一大措辞，剩下的措辞利用人数相比拟例更少、有更长尾的分布，措辞的不同会让信息和文化的互换产生隔阂。
以是我们希望搜狗能通过一个好的翻译能力，帮助用户做更好的信息互换和内容获取。

我们的翻译到目前为止取得了好几次行业内的打破。

首先，在2016年11月份，第三次乌镇互联网大会上，我们首发了搜狗同传，这也是天下上第一次把机器同传用到了真实的场景下，并且替代人工同传。

不久后，我们又在2017年1月份上线了英文搜索，实在是海内首个跨措辞检索的搜索引擎，大家搜中文就可以得到英文的内容，还可以帮大家翻译成中文的结果，尤其是在学术、医疗的领域，很多优质资源都在外网，会对大家有很大的帮助。

同年10月份，我们又发布了搜狗AI翻译机，也是同类产品中首个能够离线翻译的。
由于我们出国常常碰到没有网络的情形，我们是首个能够把离线翻译做到实用级水平的。

后来我们又在2018年的时候推出了英文到中文的翻译，由于当时海内做同传都是中文到英文，但实际上在座的各位看一个中文演讲者的时候，实在不须要翻译内容，更多的是对英文的翻译。
以是我们从更落地、更实用的方向，做了海内第一个从英文到中文的同传。

目前为止，我们在翻译上，尤其是同传上取得了相对很实用的效果。
比如说今年我们支持了大概100场跨措辞的会议，像苹果的发布会，我们直接给几个网站加了同传进行直播。

实在一年前，大家在很多活动现场看到的AI同传会变成车祸现场，也有一些翻译效果很不好的情形。
但现在，大家看到这个翻译的时候，AI同传已经真的开始进入到可用的地步了。

当然我们现在的效果还没法跟顶级的人类同传比较，但是我们会用在更多的场合，由于很多场合是没有好的人类同传资源的，但是有了机器同传，就会有更好的现场支配，帮助与会者完成信息的互换。

搜狗问答

末了说一下问答，搜狗为什么做问答？

由于搜狗在做搜索，搜索的未来一定是问答。

这种交互界面一定不会像现在这样，输入关键词，然后会有几条结果。
未来，面向各种智能设备，搜索都会变成直接能够得到答案的交互办法。

我们目前的问答，尤其面向智能音箱、语音助手这样的产品，一定是通过一问一答的办法来办理用户问题的。

我们2016年底跟《一站到底》进行的互助，智能机器人和现场的人类PK回答问题，个中所有的问题都是知识类的问答。

现在搜狗便是在整合全网的知识，能够更好地知足用户对付知识的需求，以是我们把它叫做知识打算。
我们的这个能力跟IBM Watson不一样，IBM Watson是在固定的数据集上进行回答，我们的机器人的实时要求全网的结果，整理之后再来回答主持人的问题，这一定是未来搜索的形态。

总结下来，我们在措辞AI上有各种技能打破，也有各种产品的布局。
在知识打算上我们做搜索、做医疗、做各种赞助问答，在自然交互方面我们有输入法、做了同传、做录音笔，做合成主播。

未来所有的这些技能都会汇总成我刚才说的在各个场景下的智能助理，帮助用户提升自己的边界，帮助用户提升自己的能力，让自己变得更强大，这便是我本日先容的，感激大家。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

王砚峰揭秘搜狗AI体系自然交互在左常识计算在右核心是措辞

AI在ESG能见度增强马化腾定调AI有所为有所不为

AI也能照顾白叟三位博士开拓的产品能防摔倒还能检测老年痴呆