2019年,对付所有人工智能公司而言,AI的规模化商业落地都是一道“魔考”。
近日,搜狗公司做了一件事,向录音笔硬件厂商开放搜狗听写做事,接入这一能力的录音笔,就可以像搜狗AI录音笔一样智能,实现语音转写、实时互译、智能编辑等功能。
这件事乍一看平淡无奇,AI赋能家当也是旧调重弹的话题。但如果用韶光线把搜狗布局AI的打法串起来,你会创造这一背后别有洞天。
从最早的技能开放平台搜狗“知音引擎”到硬件产品AI翻译机、录音笔,再到如今开放产品背后的AI做事能力,搜狗AI落地又进入一个新的阶段,做事成了输出的重点。
搜狗AI交互技能中央总经理王砚峰的一句话更是直指AI商业落地的“痛点”,“只做技能是不足的,没有面向场景的深度优化,技能便是一种鸡肋”。
一、转变背后:硬件打磨技能体验,软件抢占市场早在2016年,搜狗开始做语音开放平台“知音引擎”,并考试测验将技能推向行业,但探索一段韶光后,搜狗决定暂时不将这条路作为主攻方向。
缘故原由是机遇不到。在AI平台发展早期,软件免费的思路还勾留在很多民气中,“你给我技能,我帮你做品牌背书”成为一种早期玩法,再加上通用技能平台的体验并不理想,技能供应商没有得到行业太多认可。
另一方面,面对百度、科大讯飞等玩家的语音平台,只管搜狗也有不错的技能积累,但在生态资源的比拼上也并不占上风。
因此,从2017年下半年开始,搜狗不再大力去推技能开放平台,而是沉下心来将技能下沉,打磨场景与硬件,并在2018年上半年推出AI翻译机和AI录音笔产品。
以录音笔为例,传统的录音笔功能单一,紧张便是录音。而搜狗AI录音笔则不同,录音后,它可以供应准确率高达95%以上的语音转写,还具备实时互译、云端分享、中英同传等多种AI 功能。凭借着语音转写和离线翻译等方面精良的表现,搜狗录音笔上市后,短韶光内就在多个电商平台取得了单品销量第一的成绩,在这一领域构建了核心的竞争上风。
与此同时,行业的不雅观念也开始转变。行业一些玩家意识到,通用技能平台虽然免费,但并不会针对详细场景做优化,每每导致产品体验不敷。在探求更优的技能方案同时,行业为技能付费的意识开始增强。
这时不少公司主动找到搜狗,乃至包括一些硬件上的竞争对手,讯问能否购买搜狗的AI翻译能力。王砚峰回顾道,“只管供应技能平台和供应做事能力都是ToB,但两者的感想熏染完备不同,最初行业都涌入技能开放平台,但在方案上没有谁真正不可替代,客户可以在多家之间来回切换;但当你在一个场景形成独特上风、构建核心壁垒后,行业会更尊重你,乐意购买你的做事能力。”
这成为搜狗再一次转身,改变AI的落地方向的导火索。
随着硬件之路的深入,搜狗意识到一个问题,在C端硬件市场,纵然是最大的玩家,每每也很难霸占50%以上的市场份额。这跟软件完备不同,软件可以发挥网络效应,一家独大,霸占一个市场80%以上的份额。范例的代表便是手机市场的多品牌和安卓操作系统的一家独大。
此外,录音笔是一个相对狭小的市场,我国每年的销量均在400万台徘徊,并且这一市场有搜狗、科大讯飞等科技公司,还有索尼、爱国者等硬件企业,竞争同样激烈。
再加上搜狗是一家“技能范”十足的公司,线下渠道能力以及发卖能力比较传统的硬件厂商并不占上风。
这意味着搜狗很难在硬件上一家独大。如何抢占更大的市场份额?如果硬件不能,软件上是否有机会?经由搜狗内部一番思考,王砚峰认为,软件这条路是有希望的,经由场景的深度优化后,纵然面对BAT等互联网巨子,搜狗在AI翻译、语音转写上也具有明显上风。
因此,搜狗决定再往前迈一步,开放AI录音笔背后的听写做事,为录音笔行业供应OS系统,成为软件做事的核心供应者。
这是否又意味着硬件对搜狗的主要性会低落?王砚峰表示,硬件依然是主沙场,和AI一样,都是搜狗的几大计策之一,因此硬件和开放做事对付搜狗同样主要。
在他看来,智能硬件和AI技能研究是密不可分的,硬件是AI技能的载体,AI是硬件产品的灵魂。只有面向用户体验,深入场景打磨技能,将技能、硬件、场景领悟才能构建AI的竞争力。另一方面,开放听写做事,可以将搜狗打磨好的技能方案,以做事能力对外输出,推动搜狗AI的规模化落地。
用硬件打磨技能体验,用软件做事抢占市场、规模化落地,这一策略正在成为搜狗AI新的打法,也表示了其对AI落地更深层的思考。
二、“只做技能是不足的,关键是做事能力”回到录音笔行业,我们本日见到的录音笔,无论是外不雅观还是功能,跟2000年前后的产品并无太多变革。
也正是传统录音笔单一的功能、低频次的利用场景,智好手机正在成为它的替代品,目前手机录音APP已可以完成大部分场景的录音,有力地冲击这一市场的发展。
这也导致录音笔一贯是个小众市场,近几年每年的销量都在430万台旁边,销量一贯结束不前乃至一度下滑。而各家比拼的无非音质、电量、存储空间的提升,至于用户利用录音笔到底做什么,背后的做事体验如何,行业鲜有思考。
搜狗本次开放的听写做事,则依托自身踏实的AI技能和录音笔场景的深度实践。去年3月搜狗发布了一款AI录音笔,经由用户较长一段韶光的利用,搜狗对海量的用户行为数据进行深入剖析后,第一次为行业呈现了用户的真实画像。
搜狗创造,利用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达44%;第二大场景是企业内部培训,占比为24%;第三大场景才是采访,占比21%,这三大场景加在一起占了录音笔利用场景的90%。
而且在利用录音笔的用户中,每周利用频次超过三次以上的用户占比达60%,每周超过10次的占比达15%;在录音时长上,41%的用户录音超过10分钟。 可见,大比重的用户保持较高的利用频次和利用时长。
这三大核心场景也匆匆使搜狗进一步思考,AI可以为用户带来什么代价。比如一场会议录音可能长达数小时,语音转成笔墨长达数万字,用户如何准确、轻松的整理内容,快速出稿,以及编辑完后,如何快速的分享给同事等等。
基于这些思考,搜狗更有针对性的将AI技能融入听写做事中,为行业输出优质的产品体验。
详细而言,首先搜狗开放了高准确度的语音转写能力,并支持10余种语音识别及方言识别。它采取业界领先的深层Transformer-based 端到端声学模型、神经网络措辞模型、智能标点预测技能等,语音转写准确率可达95% 以上。
第二,麦克风阵列和语音增强技能。搜狗基于“云端+本地”结合,打造了双麦语音方案,并针对远场噪音环境,做了专门的降噪算法。
第三,个性化语音识别技能。语音转写时,关键词识别缺点给用户体验带来的体验是糟糕的。搜狗通过打通输入法账号体系,基于产品中用户数据的利用习气,自动挖掘用户的个性化词组,利用户常用语的转写缺点率低落40%以上。
第四,智能编辑与多端同步编辑。语音转写不是目的,用户的终极目的是编辑成文。通过云端智能纠错编辑技能,搜狗听写可以针对置信度低的转写结果供应多个候选词,针对口头语、重复词进行自动文本顺滑。此外它还支持三到四人的人声识别,语音转写时在内容上自动区分辨话人。
第五,云存储做事。用户的录音和笔墨都可以长期安全地保存在云端。
搜狗王砚峰阐明道,市情上做AI技能输出的公司,更多是把技能以API接口的形式输出,但“只做技能是不足的,没有面向场景的深度优化,技能便是一种鸡肋”。
差异与此,搜狗重点做了两件事,一是把中台做事做得更完善,包含账户管理、转写技能、云同步功能、智能编辑等;二是供应了做事接入层,互助伙伴可以通过蓝牙开放协议零本钱接入,让用户通过PC 和移动端享用搜狗听写的增值做事。
回到录音笔行业,纯挚比拼硬件的商业模式已经持续了近20年。而在搜狗听写做事背后,市场的天花板彷佛正在打开,以AI+软件做事+硬件的办法,正在重新定义录音笔和新的商业模式。
三、听写做事的基石:搜狗输入法搜狗听写做事的背后,有一个随意马虎被忽略的存在——搜狗输入法,它对付听写做事,乃至搜狗AI都意义重大。
目前搜狗输入法APP 已拥有超4.5 亿的日活用户,PC 端更是霸占99% 的市场份额,语音要求峰值已超7 亿次,稳居环球最大的中文语音运用。
搜狗输入法背后的弘大用户和海量数据,首先为听写做事供应了绝佳的“练兵场”,听写做事中核心的语音转写技能早就在输入法中上线,不同的是,输入法中语音转写的场景以单句话为主,而录音笔中语音转写是更长的篇幅。经由海量数据和真实场景的优化,搜狗的语音转写才能达到95%以上的效果。
其次,搜狗输入法供应“入口”上风,移动端和PC真个输入法都支持搜狗听写做事。在PC输入法上,听写做事作为一项运用直接内置到PC输入法的工具箱中,当录音笔插到电脑上后,输入法就能自动探测到它,帮助用户进行音频管理,并供应听写做事。针对存量录音笔,这一办法可谓直接增加了其附加值。
凭借着99%的市场覆盖率,PC输入法有一个独特的上风,凡是工具性、效率性的工具都可以内置个中,不须要二次安装,用户随时调用,这大大提升了用户利用的便捷性。
在移动端,搜狗在输入法APP中也开放了听写做事的接口,一方面4.5亿日活用户带来一个弘大的市场,能够让用户更便捷的利用听写做事,弘大利用量也可以更快速的迭代听写做事背后的AI技能和产品体验。
另一方面,将听写做事直接内置到输入法上,避免了账号打通的问题,可以更便捷的利用账号的历史数据供应个性化的听写做事。
不但是听写做事,在搜狗AI的版图中,输入法便是AI技能的练兵场,它为技能研究设置问题,为技能的演进供应源源不断的数据年夜水,又供应最佳的落地载体,扮演着“源头活水”的角色。
王砚峰也表示,开放听写做事只是搜狗的第一步,未来搜狗将会进一步发挥输入法的入口上风,将自身的语音翻译能力都以做事的形式开放出来,为用户带来更大代价的同时,抢占更广阔的软件做事市场。
从输出技能到打造硬件,再到供应做事,是搜狗AI发展的一个迁移转变点,也是搜狗AI落地的深化。