与以往从海内市场角度的剖析不同,本文将以海内市场为支点,以环球市场视为目标,探寻语音转写产品的诸多可能性。

本文说的语音转写,聚焦于面向C端用户的带语音转笔墨功能的产品,不包括企业做事中的智能客服、Fintech、车载语音、聪慧医疗场景下的泛语音转写。

一、名词阐明

语音转写:利用将音视频信息转化成文本信息的一种做事。

实时转写,即流式上传-同步获取,可将不限时长的音频流实时识别为笔墨,并返回带有韶光戳的笔墨流;一样平常用于直播实时播放字幕、实时会议记录;也可以合营机器翻译,实现同传功能非实时转写,即已录制音频文件上传-异步获取,非实时语音转写将长段音频数据转换成文本数据,可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR:指自动语音识别技能(Automatic Speech Recognition),是一种将人的语音转换为文本的技能。

一文道清语音转文字市场AudioToText

NLP:自然措辞处理(Natural Language Processing,NLP)是利用打算机对自然措辞文本进行理解、处理,并提取文本语义的过程。

二、如何先容清楚语音转写

笔者的安排是这样的:

语音转写的基本定义和观点科普,帮助读者和笔者同频;语音转写所在的前置背景,这是它发展的条件;语音转写的市场规模,这决定了它是否值得被研究;语音转写的家当链,这可以帮我们从互助视角看我们关注点所在的位置;语音转写的竞争格局,这里是重点,用竞争视角从行业玩家身上直不雅观感想熏染语音转写的用户-场景-需求和商业模式,并且笔者不仅会纵向比拟海内不同语音转写产品,也会横向比拟国内外语音转写产品的差异,末了通过详细拆解Notta这款明星PLG产品作为行业经典案例,希望带来启示;语音转写的发展趋势,这里紧张是通过展示干系创业公司来阐述其可能的发展路径;语音转写的综合评价,总结笔者对付语音转写行业的认知。

三、语音转写发展的前置条件

这事能成,紧张有赖于三点,由于语音转写是有三个步骤组成的:

输入得更多,解释场景更多,市场需求更多;转码得更快,解释本钱更低,利用没有障碍;输出得更准,解释结果须要更少的修正加工,结果更满意。

这三点如何发生了改变:

1. 输入方面:无纸化程度极大提高,大部分的数据都因此数字化形式存储

理论上,只假如人与人之间发生的信息的通报,都是有数字化的须要的,紧张因此非构造化数据的形式:

比如开会讲话的内容,是多人之间相互的信息通报,须要沉淀成会议纪要;比如老师讲课的内容,是一个人单方面向多个人的信息通报,须要沉淀成学习条记;比如采访对话的内容,是一个人和另一个人的信息通报,须要沉淀成实录文档;……

这些沉淀的信息肯定不能以手写稿作为载体,而是要以文本形式存储:

手写稿存储本钱太高,纸多了你总会弄丢吧,韶光长了纸总会坏吧,要记的内容多了,我得随时准备各种各样尺寸的纸,以备时时之需;传输更麻烦,手写稿只有作者自己能看懂,况且一次只能给一人看,这还不如印刷术发明前的人类社会呢,信息的传输效率限定了天下的发展。

在未来,协作越来越多,人与人发生信息通报的场景就越来越多,越来越多的信息须要被数字化记录沉淀。

这是电子信息技能带来的构造性变革。

2. 转码方面:ASR性能提升,带来了转录的实时相应

纯挚的无纸化,只能催生速记员、打字员,比谁能快速输出文本信息,这个活又脏又累还贵,可重复性可替代性极强,切实其实便是人工智能的最佳瞄准工具。

输入输出本身就很麻烦,1个小时的音频,人写须要2个小时,语音转录只须要5分钟。

3. 输出方面:其他语音技能的提升,带来了却果的可靠性

为什么说其他,由于这些紧张还是寄托于语音转笔墨这个技能之上对结果进行的优化。

人声分离,一种区分不同人声音的技能,可以通过声音来辨别某人的身份。
一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音;多语种识别,对殽杂的措辞环境进行区分,识别多人对话;环境降噪,对喧华的说话环境进行过滤,区分哪个是关键人在说话哪个只是环境音;措辞降噪,人在说话时毕竟不像写作那么严明,期间夹杂着大量的口语和语气词乃至叠词,须要对文本进行精简提炼,增强可读性,这属于NLP范畴。
……

四、语音转写行业发展

这个过程并非一帆风顺,语音转写行业也是历经了四个发展阶段的。

第一阶段

在1990年-2010年,紧张是人工做事,即通过人工实现录写做事。
这个期间的产品形态,因此专业人工做事或外包办法做事客户。

第二阶段

在2010年-2015年,转写进入互联网化,这个阶段引入了机器做事,让机器助力转写,这种做事的产品形态紧张因此网页和客户端小工具等办法实现。

第三阶段

在2015年-2017年,转写进入移动化,这个阶段引入人工智能和ASR技能,实现更高精准度的语音识别和语义理解,这种产品形态更加多元化,以APP、网页、智能硬件等办法展开。

第四阶段

在2017年至今,也是当前的阶段,转写进入人机耦合阶段,是人工智能与人工做事相领悟的时候,产品形态上仍旧因此APP、网页、硬件等办法,但机器与人工进一步领悟。

这是从技能角度去理解行业发展,实在其运用形式远不止于此。

五、家当规模

语音转写行业的盘子到底多大?

先看一组行业数据,根据艾瑞咨询的报告,2021年中国智能语音撰写市场规模约为10亿元,估量2026年市场规模将达到38亿。
如果要估算环球市场,用这个数据乘以5即可得到大致结果。

从产品形态来看,智能转写产品紧张包括Saas类产品与本地化支配办理方案两大类。

这个市场的特点便是,基数不算大,10亿量级,但是增长率相称可不雅观,会有很多的增量涌现,由于过去是大语种、大企业的需求,未来将会蔓延到更多的小语种、方言、小企业和传统企业,乃至是国企。
(国企是这类Saas做事的重点做事工具)

下图是2022年中国智能语音产品成熟度曲线,可以看出语音转写技能以及逐渐进入成熟稳定期。

总之,语音转写的核心是ASR,从技能发展曲线来看,是语音技能最成熟的一项技能了。

ASR的准确率每年都在增长。

六、市场特色1. 供给>需求,由需求驱动

语音转笔墨,实质是供应了一种软件做事,办理了信息沉淀的效率问题。

当转录还是人工做事时,行业是由供给驱动的,由于转录员是有限的,而且价格昂贵。
当机器取代人工转录时,已然变成了一个成熟行业,此时行业变成了由需求驱动。

既然是需求驱动,其需求来源决定了市场的规模和增速。

可见的趋势是,在线会议的比例会越来越高,纵然已经进入后疫情时期,但是企业逐步适应了在线会议,随着未来跨区域团队协作场景的增加,会有更多团队利用好在线会议。

网课会越来越多,网课不仅仅是指初高中学校的网课,更多的是职业教诲的网课,当今的成年人在上各种各样的技能课程,范例的如公务员课程、考研课程。

2. 准入门槛不高,同质化明显

ASR技能已经非常成熟了,各种厂商可以供应稳定的API和SDK,供市场进行不同程度的利用,因此行业的准入门槛不高,很多玩家都可以加入进来,供应相似的做事。

海内市场,去百度搜索语音转笔墨,会有数十种供应类似做事的网站。

国外市场更卷,在Google搜索audio to text,会有十几种同质化的网站。

一些差异化也只在一些细节上,比如区分辨话人、专业领域的词库、不同的价格策略。

可以说,纯挚的语音转笔墨功能,靠转录的字数或时长付费,实在玩不出新花样。

3. 市场多样,赢家难以通吃

受前两点影响,这个市场由需求驱动,且总是会有新入场者。

如果用户一旦没有转笔墨需求,是不会利用的,毕竟每次利用都是要钱的。

这个模式在中国市场面临一个问题,海内用户不喜好这种“pay for every use”的办法,以是会想尽办法去找一些免费试用的替代品。

因而很难涌现一个赢家垄断全体市场,简言之,这是一个开放竞争的市场,各种新兴企业试图环绕着语音转笔墨供应更多的附加代价。

下图是海内供应直接语音转笔墨工具的长尾厂商部分名单(不完备统计,也不包括带语音转笔墨功能的产品比如输入法、微信、剪映等):

如果以为多,不妨再来看看美国市场,仍旧是不完备统计:

相信读者可以直不雅观感想熏染到这个行业的“卷”度。

七、商业模式

语音转写的商业模式是比较清晰的,分三种:卖软件做事,卖硬件,卖定制化。

1. 软件做事在线API——厂商供应接口数据在做事端进行,特点是灵巧性强、效率高,按利用次数或者利用时上进行收费。
离线SDK——厂商供应核心算法模块,数据在客户端进行,开放性、软件开拓兼容。
私有云——厂商供应私有云平台定制化做事,可以知足客户定制化需求,安全性强。

2. 硬件

厂商供应语音采集等终端硬件,有效采集语音数据,实现语音采播编审存一体化。

3. 集成办理方案

厂商供应场景及行业定制化办理方案,开拓聪慧媒体办理方案,知足不同行业个性化需求。

八、家当链

从技能源头到消费端分居当链上中下贱。

1. 上游

紧张是由一些科技大厂来主导,它们是全体AI行业最底层做事供应者。
阿里云、腾讯云、百度开放平台、讯飞开放平台都是比较不错的根本平台。

语音识别和自然措辞处理均为智能语音转写的关键技能,为办理资源摧残浪费蹂躏项目之间短缺共享等问题,基于AI平台开放NLP的方案应运而生。

2. 中游

紧张是AI技能的供应者,按照各自业务特色分为四类:

(1)普通意义的智能语音厂商

比如专门供应智能语音做事的讯飞听见、灵云听语。

(2)独树一帜的AI公司

云知声、思必驰、商汤、依图。

(3)互联网巨子

阿里云、百度云、腾讯云、华为云。

(4)边缘厂商

搜狗(原来算,现在被收购就不算了)、迅捷、金舟,等等。

3. 下贱

这便是真正被消费者利用的场景了。

(1)多人谈论

比如公司里的会议:

1 V 1沟通,比如采访、电话发卖、客服。
1 V N输出,比如教室、演讲、直播、大会。

(2)媒体创作

比如视频网站的字幕天生和视频创作者的字幕文件。

产品形态上,既有讯飞听见这种直接供应转写做事的产品,也有输入法、微信、飞书妙记这种嵌入语音转写的产品。

九、竞争格局1. 海内竞争

这里只针对面向C端市场的转写产品做竞争格局剖析。

范例的语音转写代表产品:讯飞听见。

讯飞听见是科大讯飞旗下的一款主打语音转写的产品做事,得益于讯飞在语音领域的深耕,讯飞听见凭借高精度转写能力霸占了中高端市场,如果点开它的网站,可以看到机器快转和人工精转两种做事合营,知足了商务这类对转写有高标准的严明场景。

之前说过,对精良语音转写能力的定义便是要快和准,快不用说了,1小时音频最快5分钟出稿,比较于人类速记员绝对是五十倍的提升,准这方面,机器水平已经达到97.5%,并且支持多国措辞和方言,外加许多专业领域词汇。

唯一不太亲民的地方是:贵。

2个半小时转录收费50元,如果不是特殊须要,或者急用,一样平常不会轻易购买。

它的竞品有很多,这类产品的商业模式都比较清晰,紧张办理用户转笔墨的须要。

用户为转笔墨效果付费,因此看重的是转笔墨的准确率,那在某些方面当然就不能顾及到,比如“数据孤岛”问题,用户转笔墨后须要导出变成其他格式,至于这些转笔墨的数据结果如何利用取决于用户的实际用场,这就不哀求什么用户留存了。

这个模式在中国市场并不讨巧,海内用户并不都接管这种“pay for every use”的办法,以是会想尽办法去找一些免费试用的替代品或者是会员制的收费软件。

因此这类产品的高质量用户多为有稳定需求和付费能力的创作者、企业用户。

讯飞听见作为行业头部厂商,肯定是不肯望做一个“用完即走”的产品的,如前所述,须要用到转写做事的场景有会议、演讲、教室、采访、字幕创作等。

符合高频、用户量大、付费能力强一定是企业用户的会议场景。
因此讯飞听见选择切入了“在线会议”市场,希望通过转写打通会议创建——预约——会议转写——会议纪要的全链路场景,这样转写结果就不是一座数据孤岛,而因此会议记录的形式成为企业办公的根本举动步伐。

说完以转笔墨为核心的宽泛型产品后,下面先容第二种,以在线会议为核心,附带语音转笔墨的产品。

范例代表:腾讯会议、飞书妙记、钉钉闪记。

钉钉闪记供应了会议实时转写和音视频转写的功能,帮助员工沉淀事情信息,快速定位到关键信息有助于做决策和制订操持。
对付转写结果,不仅做到非常细致的分段,而且还支持编辑和高亮的功能。

飞书妙记除了根本的转写和编辑功能外,还供应了关键词提取的功能,帮助员工快速捕捉定位干系术语来纵览整篇内容。

会议协作产品有着天然的上风,由于企业协同办公是一个稳定的流量入口,会议转笔墨只是一个附加代价,重点在于转笔墨后的团队协作,将会议纪要转换成团队详细的决策和知识,在团队内部共享。

话说回来,讯飞听见从语音转写扩展到在线会议,难道是由于觊觎在线会议市场份额而插一脚的么?

2. 外洋竞争

NO,我们将眼力放到国外。

国外的转写市场发展比海内更早,最成熟确当然是美国。
如果说科大讯飞在外洋的counterpart是Nuance,那讯飞听见在外洋的counterpart是Otter,而不是siri和Alexa,

这是一款基于人工智能和深度学习的语音识别产品。
总部位于加利福尼亚州洛斯阿尔托斯,也是AI驱动的协作条记和生产力提升运用程序供应商。

2020年Otter.ai得到来自日本移动运营商NTT Docomo的1000万美元融资,并且宣告与Zoom加强互助关系,为Zoom会议启动实时字幕,并且在疫情期间实现了指数级增长(收入同比增长10倍)。

Otter.ai供应了一个AI驱动的协作条记记录和生产力提升运用程序,可与Zoom和Google Meet等视频会议平台以及电话和其他语音通信合营利用。

Otter Voice Meeting Notes运用程序利用专有的人工智能实时天生安全、可共享、可搜索的丰富条记,这些条记结合了音频、转录、说话者身份、内嵌照片和关键短语。
该运用程序在230多个国家/地区利用,现已录制了超过1亿次会议,涵盖了30亿分钟。

Otter的做法反响出了国内外市场一大差异。

国外企业在线办公三巨子Google Meet、ZOOM、Microsoft Teams。

大多数会议新产品都是环绕着这三家作为根本举动步伐供应附加做事。

Otter也不例外。

末了先容一款产品,Notta,它为语音转写市场拓宽了思路,缘故原由有二:

它在外洋激烈的语音转写红海市场凭借差异化的体验成功得到一席之地。
它在外洋市场找到了高代价市场,盈利情形相称可不雅观。

语音转写作为一项成熟技能,门槛是不高的,行业头部厂商和普通厂商的转写精确度相差都是百分之几,对很多用户来说够用就行,因此相互之间的替代性比较强。

一个普通的语音转写新玩家,想要得到一些份额,有几种办法:

SEO,让一些小白用户首次就打仗到这个产品,这些用户用习气了大概率不会离开;免费低价策略,在有根本的语音转笔墨能力后,就靠免费来得到一些低代价用户,由于这些用户是被头部厂商的付费漏斗给剩下的,这些用户付费意愿险些没有的,用你便是图免费,但你不可能永久免费,当你规复收费的那一天,也是白嫖用户离你而去的时候;供应除转写外的附加代价,可以冲破“数据孤岛”,用户为附加代价付费。

Notta就选择了第三种。

十、范例案例

下面先容Notta,一款中国企业出海日本市场的语音转笔墨产品。

这款产品主打的仍旧是语音转笔墨,只是对付转笔墨后供应了更多的附加代价,为用户的事情学习场景打造了完全的闭环体验:

多场景输入——多语种转笔墨——编辑校正——条记输出——分类管理——导出

1. 多场景输入

用户会以何种办法输入音频文件,就有多少种场景:

直接得到音频文件——音频导入录下当前环境中的声音——环境实时转录录下当前屏幕上的声音——Chrome浏览器插件开会时录下在线会议——Notta Bot会议实时转录

音频导入和实时录制是很通用的功能了,这里着重先容Chrome插件和Notta Bot。

(1)Notta Add-in

插件的需求紧张来源于很多有用的资料是网站的在线视频里的,如果想把在线视频转笔墨须要用户想办法提取出音视频,要么是用户用手机对着电脑外音录一遍再导入转录,要么是懂点技能的用户提取出网站的音视频源文件,这样做无疑是提高用户的利用门槛和本钱。

Chrome插件可以很好地办理这个问题,插件本身便是极具定制化的,用户在播放在线音视频时可以打开插件录制,播放完后就可以得到完全的转录文件,肃清了导入门槛,效率大大提升。

(2)Notta Bot

Notta Bot是一个会议录制功能,用户在一些不须要发言的网络研讨会、开放性的会议可以利用 Notta Bot 定时参会,空闲时候回顾音频和文本。
公司例会和客户会议可以通过 Notta Bot 记录文档,推送到 Notion 留存。
目前 Notta Bot 已经支持 Zoom/Google Meet/Microsoft Teams,还可以同步自己的日历,实现自动参会。

2. 多语种转笔墨

Notta针对的是外洋市场,因此须要知足大量不同地域的措辞哀求,因此措辞支持方面也是 Notta 的上风,Notta 集成 Google、AMI、微软、思必驰等多家引擎做事商,支持中文(简体、繁体、粤语)、英语、日语等多达几十种措辞,还包含多种口音,如印度英语、澳大利亚英语等,系统会根据不同的措辞智能匹配不同的引擎,综合措辞和口音达到100种。

3. 编辑校正

首先,和讯飞听见的转录结果倾向阅读的整段展示不同,Notta将转录文本切得很细,每段/每句后都直接附上了原声语音切片,如果用户须要对文本以编辑校正。

比如对干系术语近义词可能造成歧义的,切得细的相对随意马虎进行二次校验,这就让用户在转写完成后不会急速导出,而是在Notta上完成编辑事情。

4. 条记输出

对付转录结果,用户可以添加图片,将文本条记变成富文本条记。
进一步地,通过给条记打上标签添加便签内容,帮助用户从原文中提取关键信息形成决策和操持(默认标签有Key Poiont、To-do、Project),非常契合实际的事情学习场景。

5. 分类管理

不同于“用完即走”的语音转录工具,Notta争取让用户留在产品内,用户如果有长期的转录文件需求,文件的分类管理是大问题,毕竟如果每次都要导出到本地,碰着多设备办公或者协作时会很未便利。
因此Notta承担了条记内容的存储空间,支持将转写文档建组归档,从语音转录工具变成了文档办公正台。

6. 导出

完成转写和编辑之后,Notta 在导出文本时还具备良好的兼容性。

Notta 除了支持实时录音转写,还支持音频、视频的主流格式导入转写,我们在网高下载的音频视频文件无需转换格式可直接导入 Notta 中获取转写笔墨,并可导出多种格式的文本档案,如 PDF、DOCX、SRT 等格式。

Notta的创始人也是原来摩拜单车的联合创始人,几个合资人也是有不错的创业履历,以是在语音转写红海市场里的打法也比较值得品味。

Notta一开始就确定了“PLG+订阅付费”的盈利模式,由于经由验证,这种模式是最适宜外洋SaaS产品的自增长,Notta早期也是有在中国市场上架投放的,但是创造中国市场的订阅付费情形非常糟糕,大略说便是白嫖居多,因此后面由于各种缘故原由就暂时不投放了。
(Notta作为一家创业公司,避免重复造轮子,集成了 Google、AMI、微软、思必驰等多家引擎做事商,被白嫖真架不住)

Notta在外洋的投放自然也是瞄准发达国家,由于发达国家的付费意愿的确高,养活了很多SaaS公司,在浩瀚地区的投放效果比拟时,创造日本的投入产出结果是最好的。

Notta经历了从单一场景切入的工具,到口碑传播和商业化,再到做事企业客户的完全过程,紧张有三个阶段:

(1)第一阶段

Notta最早作为移动端工具APP,先是上了APP Store,然后上了Google Play,2020年7月份的时候,全体移动端下载量溘然一天增加了两万,冲上了日本地区效率榜Top3。

当时团队以为是被黑客攻击了导致下载量特殊多,直到过了大概两三天才创造Notta是被日本的电视台一个早间新闻节目宣布了,一个日本年轻动画配音演员分享了日本人生活中要用到的几个效率APP,于是就在日本小火了一把,之后Notta在苹果市场表现得非常好,用户搜一些关键词就可以看到这款APP,Notta创造日本市场在用户增速、营收、付费意愿都是相称不错的,团队开始发力日本市场。

直到2022年5月份的时候上了企业版,随着功能逐渐丰满开始有企业级别的客户去付费。
在只有App的时候,Notta创造传统媒体的PR效果非常好。
这个阶段Notta也考试测验过海内安卓市场,后来创造付费还是弗成。

在上线Web版SaaS产品后,用户开始在社媒上自发谈论Notta,评价Notta为他们生活带来了便利,乃至有用户称“Notta该当得到诺贝尔和平奖”。
产品的口碑开始建立了,也符合公司的预期——一定要做品牌,要让用户总是搜索到好的评价和内容,通过“洗脑式”的好评来影响用户终极的决策。

(2)第二阶段

本地化运营,这个时候,团队创造60%的流量都来自搜索引擎,因此营销精力紧张放在SEO(搜索引擎优化)。

本地的内容同学和兼职写手基本上一周能产出与产品、场景或效率干系的二十多篇文章,通过这些文章在搜索引擎不断优化关键词,实质是内容营销。
当SEO月环比或周环比增长放慢的时候才考虑合营买量。

(3)第三阶段

PLG典范,自下而上效应终极帮助产品进入企业级客户,当时基于用户需求做了一个跨平台自动参会的功能,也为产品带来了一小波爆发。
比较范例的企业客户这天本的八千代工程(工业、汽车零部件供应商)。

而这笔大单的起源是一名员工最早购买了一个账户,公司先是有一个市场顾问在用的过程中以为很好用,然后团队几个人开始在用,之后他们以为自己每次买会员还要找公司报销,以为很麻烦,于是就推到本公司的数字化业务推进部门的 leader,经由几次远程会议后该公司帮1000多名员工购买了Notta 500多个账户一年的做事,这是Notta第一个大客户,全体发卖过程比较顺利,是纯在线的办法。

从马后炮的角度看,日本市场表现显著的缘故原由有三:

(1)日本市场的老龄化趋势下,劳动力是极度稀缺资源

在日本有这样一个段子,150个岗位,却只有100个人来应聘,因此日本企业对付人效的关注持续上升,日本的经济劳动省(相称于国家的人力资源部)提了一个建议,让日本企业能够以数字化的办法去拥抱未来。
希望利用AI带来的自动化事情办法来去提高人效,刚好 Notta这款产品符合这个场景,因而整体导入是比较顺利的。

(2)日本严明的职场文化

日本职员只要开会,一样平常都会写一个特殊详细的会议纪要,或者有一个专门的职位去做这样的事情。
Notta这款产品刚好符合日本这种当地文化,那么导入的过程也会比较顺利。

(3)日语比较于中英文,归根结底属于小市场,竞争不激烈

美国早期的那些独角兽公司或者一些SaaS公司,它早期并不会关注日本市场,这也是给了Notta一个好的入场机会。
像Otter这样的AI公司在北美的增长是很快的,目前有几千万美金的收入量级,但是Otter始终没有做日语引擎,这给了Notta团队一个窗口期,让Notta能够在日本迅速把市场覆盖度铺广,目前为止在移动真个效率榜Notta已经进到前10名,在Notta网页端每个月已经有将近100万UV。

由于是发达市场,而且供应了如此丰富的功能,Notta的客单价比较于竞争对手绝对是第一梯队的,

Notta实施订阅制,对付免用度户,Notta每个月会赠予120min的转写时长,付用度户可以不仅可以有无限时长,还可以利用各种附加功能,比如更多的导入格式、笔墨校正、隐蔽韶光戳等。

年费均匀下来要比月费要便宜(下图是年费换算),单月付费大概是100元公民币的价格,相称于在讯飞听见上转写6个小时的文件,这样看来整体性价比是高的。

目前Notta在日本这个软件领域彷佛很传统的市场,又是在语音转录这个并不分外的赛道,不到3年就做到月入30万美金,算上ARR已达到360万美金了。

由于出海产品都会面临很强确当地运营问题,因此针对PLG模式最发达的美国市场,Notta团队选择重新开拓一款会议效率产品Airgram,拿下Product Hunt头条,顺势拿下了1000万美金的A轮融资。

从Notta团队的思路可以看到,语音转写产品想在超级红海市场脱颖而出,遵照几个逻辑:

小工具尽快找到核心代价用户,或者国外常说的ICP(Ideal Customer Profile,空想客户画像),让客户推着产品向前,Notta一开始就是非常重视盈利闭环的,而不是供应同质化的免费低价做事,由于那只会吸引低代价白嫖党;不重复造轮子,关注自己的核心业务,善用三方工具和能力,快速将产品做到及格,尽早投入市场进行验证;非常重视内容营销,在外洋要真正并持久得到高质量的用户,须要给产品持续讲一个打动人心的故事,这点普通公司离外洋一流SaaS公司的差距很明显。

十一、语音转写发展趋势

既然谈到发展趋势,就不局限在C端运用市场了,而是放眼环球的各个领域

1. 从大语种逐渐蔓延到小语种

中美互联网发展是最快的,其次便是东南亚、印度,这些地区经济发展紧随中国,互联网渗透率也越来越高,根本举动步伐越来越完善,一定会产生许多新需求,对这些市场是新需求,实在对付中美已经是被验证很多次的市场了,因此贯彻“Copy to them”的策略,就语音转写而言,东南亚、印度这些地区很明显的社会特色便是民族多、措辞繁多,识字率不高。
虽然印度是一个完全的主权国家,但其实际的社会统一性是远不如中国的,

印度措辞的特点,一是措辞种类多,二是各个语种利用人口非常不屈衡。
个中印地语母语者最多,而英语最通畅。

印度有个称号叫“措辞博物馆”,足见其措辞状况之多样。
大体上,北印度人紧张讲印欧语系下的印度-雅利安语支的各个语种,如印地语、乌尔都语;南印度人则多操着达罗毗荼语系下的各措辞,如泰米尔语、泰卢固语等。
印度措辞从大的层面的分类,有很明显的南北差异和东西差异。

精确点讲,按照2001年人口普查结果,在印度作为母语利用的措辞数量有1635种,单是利用人口在百万以上的措辞就有29种。
在浩瀚本土措辞中,以印地语为母语的人约占印度总人口的40%,这些人集等分布在北印度,而以其他措辞为母语的人口均不敷10%。
不过在南印度,英语和南印本土措辞更加通畅。
印地语的基本盘,很明显便是恒河流域的中上游部分。

因此,在互联网高速发展的印度,有了印度硅谷之称的加尔各答,催生出各种智能语音干系的初创公司,以及其他外来企业针对印度市场的语音本土化产品。

而东南亚是由11个国家组成的,人口6亿旁边,除了新加坡这样的发达国家,大部分都是发展中国家,它们不仅民族措辞繁多,而且还有国界分割,而市场经济又将他们深度捆绑在一起,因此也是新兴的措辞市场。

(1)Fano labs

中国喷鼻香港的初创公司,Fano Labs,成立于2015年,专注于语音识别(ASR)及自然措辞处理(NLP)等人工智能前沿技能的研发与运用。
目前,公司的语音识别办理方案支持普通话、英语、泰语、印尼语等多个语种,以及四川话、广东话等各种方言。
其紧张业务是为金领悟规和客户做事等场景供应语音识别技能做事。

Fano Labs 的核心竞争力是多语种环境识别,即在几种措辞殽杂情形下的语音识别。
比如,在喷鼻香港企业中,中粤英殽杂利用的情形较为常见,印度企业面临着印度语和英文稠浊的问题,即便在新加坡,虽然大部分企业讲英文,但日常沟通也会掺杂一些中文和马来语。
随着多语种稠浊的趋势愈发明显,传统措辞剖析技能已疲于搪塞。
Fano Labs 的措辞剖析技能能够自动检测录音中的不同语种,纵然同一个说话者在多种措辞切换也能被准确识别。
(值得一提的是,喷鼻香港有一个独特的上风,便是这个国际化的大都邑汇聚了天下各地的人,我们在喷鼻香港也能轻松地找到其他国家的 native speaker,通过他们的反馈,我们得以把技能打磨得更好,借助喷鼻香港这个跳板,出海到其他国家。

(2)Vokal

在过去的十年中,印度的互联网市场以及干系业务都专注于做事习气于利用英语的用户身上。
但下一代互联网用户渴望的是不用打字的非英语内容、互换以及购物。

事实上,大多数印度互联网用户都习气于利用印度语浏览网页,而这一数字估量在两年内达到 5 亿。
谷歌的统计数据也能为印度下一代互联网用户行为的变革供应一些线索:

印度的语音搜索量同比增长了 270%,同时,95% 的视频内容消费都是本地措辞。
估量未来几年内,印度的互联网用户数量将超过 6.5 亿,新用户将全部来自于印度二、三线城市以及屯子地区。

Vokal 的运用下载量超过 50 万,人们可以用印地语在上面提出并回答问题,而现在 Vokal 已经新推出了 10 多种措辞选项。
Radhakrishna 说,“你必须进行多种考试测验,不断完善自己的商业模式。
市场在不断地发展,以英语为中央的受众群体并不能代表全体市场的用户。

只管互联网在发展,新互联网用户的行为也与之前不同。
他们通过互联网下载并分享的内容更多了,但却不能用自己的措辞进行公开提问并得到答案。
同时,争取这些新互联网用户的也并不但有本土企业。
中国的创业公司,尤其是那些供应本地措辞选项并专注于视频内容的企业,正被广大用户选择。

笔者认为,归根结底还是印度全体国家的识字率不高,一些低线城市的人口不善于打字更不善于英文,因此用自己会的措辞进行语音搜索代替打字搜索是非常符合当地实际情形的,即语音产品的本土化,给了像Vokal这样的公司很大的增长空间。

当然这也会带来一个迷惑,为什么Google这样的巨子这么早进入印度市场,却没有深度进驻这个领域,还是那句话,不是不能做,是巨子看不上。
演习一个小语种模型无论从资金还是韶光上都不便宜,更何况早期的印度智好手机渗透率还不高,很多根本举动步伐跟不上,因此做这些小语种的确是投入大产出小。

2. 从纯挚的语音转写延伸到全体链路

无论是出海产品Notta、Airgram,还是美国本土的Otter以及一系列带语音转写功能的产品,都是环绕着企业在线会议作为立足点拓展,前有会议预约和创建,中间有会议机器人,后有会议纪要的总结和同步,旨在提高企业的人效,减少会议导致的人力资源不必要的摧残浪费蹂躏,美国企业每年由于开会带来的人力资源摧残浪费蹂躏达到企业开销的1%。

这个思路不难明得,企业开会的目的是同步信息,其结果是形成详细决策,决策终极会辅导团队行动。

会议过程转笔墨的好处在于,会议音视频是线性的数据,用户只能根据韶光线快进退却撤退来得到信息,而转笔墨后就变成可纵览的信息,用户可以在笔墨中迅速捕捉关键信息,不须要操作韶光线,更不须要把原话重听一遍。

转笔墨后,将关键信息提取出来,便是团队的决策依据和知识库,这些不应该是保存在决策者的大脑或者某个本地设备,而是要共享给全体团队,让团队参与谈论和决策实行。

同样的,对付学生来说,语音转笔墨可以很好地在课后对老师的讲课内容有很好地概括和提取,并且将其进一步知识化,补充更多内容使其丰富化,纯挚的转录文稿是低代价的,只有便捷的编辑和提取才可以让学生把产品当成一个学习助手而非用完即走的转录工具。

3. 从语音转写结果中提取线索

这个不仅仅是对语音转写能力有哀求,更多是搭配语义剖析一齐提取有效信息,多用于发卖管理、客户管理、商务会话

比如当发卖和客户沟通后,沟通数据会自动同步并且系统对数据进行剖析,让更多发卖能够从谈天数据中获益,从而更好地辅导发卖行为。

比如公司商务职员去表面会商后,其会商内容会被完全同步给团队,让全体团队包括卖力人能够打仗到一手的商务数据,结合商务职员供应的信息得出更加科学的决策。

比如企业开会的终极的落地结果是会议纪要,转笔墨只是第一步,更主要的是在笔墨中提取出会议重点内容,否则仍旧须要参会者的二次加工。

至于医疗场景,由于医疗是个严明的话题,一旦技能转录出错会酿出大祸,因此这块还有很长一段路要走。

十二、行业总结

语音转写行业的衡量标准前文已经阐明了,不仅又快又准,也须要方便存储调取利用,并且终极目的是对决策产生影响。

因此,行业上嬉戏家作为根本举动步伐的搭建者,努力提升算法性能,采集更多数据,帮助语音转笔墨以及其他技能不断提升,打破临界值。

行业中嬉戏家努力嵌入更多企业、组织、机构,帮助它们提升数字化程度,将更多的信息知识化沉淀化。

行业下贱玩家,离消费端最近,准入门槛低,参与者非常多,不乏努力避免同质化的竞争者,只有找到用户实际场景中的核心痛点,提高效率,创造更多附加代价才可以得到更高的利润。

须要语音转写的场景有很多而且流程差异很大,使很多新的入场者有发挥的空间,比如:

专为小语种市场供应专业的语音转写;针对某一个市场进行本土化的产品设计和运营,仍可以依赖高客单价建立商业闭环;通过语音转写拓展到全体链路的做事,和巨子的根本做事打通,冲破数据孤岛;从语音转笔墨的结果中提取更多关键信息和线索,帮助用户做决策。

语音转笔墨作为一个成熟行业,光靠技能竞争很难拉开差距,更关键的是比拼产品体验和运营策略。

本文由 @WIPO 原创发布于大家都是产品经理,未经容许,禁止转载

题图来自 Unsplash,基于CC0协议

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。