速记的精髓在于速率,快最主要,但在很多场景中,无论是人力还是软件,都无法达到超快的转写速率和准确率,而知足专业用户高效转写需求的工具,每每须要付费获取。如某品牌的语音转写畅想包订阅用度是 79 元连续包月,599 元 / 年;另一款则须要注册企业用户,然后找客服咨询用度标准,听说标准版用度是每个用户 199 元 / 年,高等版用度则是每个用户 299 元 / 年。
对企业 / 专业用户来说,付费订阅软件一定最佳选择,它们的速率快、无需高性能硬件本钱(GPU)、准确率高、支持人工精校,肯费钱乃至可得到一对一的专属客服支持,但如果只是偶尔利用性价比就不是很高了。
其余,这些订阅软件的 AI 做事,常日须要用户将原始的视频或音频文件上传到做事器和全程联网,且通过厂商的专业设备在云端运行,如果视频或音频文件中包含个人隐私 / 商业等内容,显然也不太得当。
关于 Whisper那有没有一款完备免费开源,不须要联网,完备依赖本地硬件算力去跑语音识别和转写,准确率还不低的语音转写软件呢?或许喜好关注 AI 领域的朋友早就有了答案,它便是来自的 OpenAI 团队所开拓的 Whisper。从官网的先容文章日期上不丢脸到,Whisper 早在 2022 年 9 月就已经推出,但时至今日它依旧是最好用的免费语音转写工具。
说它最好用缘故原由有三点,一是它的语种支持广泛(99 种),二是转写速率超快,三是识别准确性很高,且只须要一张高性能显卡就能办到,这几点我都会在后面的体验中给大家详细剖析。
先给大家大略科普下 Whisper,它是一个多模态语音识别模型,基于 Transformer 引擎所打造,通过了 68 万个小时的语音数据演习,支持 99 种措辞(包括中文),在具备语音识别能力的同时,还支持语音活性检测(VAD),声纹识别,说话人日志 (Speaker Diarization,即在多人对话场景下检测不同人物的说话韶光段),语音翻译(翻译为英文),语音对齐等能力,其英文识别准确率非常刁悍。
而上面所提到的 Transformer 引擎,恰好 NVIDIA 在 RTX 40 系列显卡上引入了一个针对 AI 打算的新硬件特性,详细来说 RTX 40 系显卡增加了对 FP8 低精度浮点数的支持,基于 Transformer 引擎,比较 AI 演习常用的 FP16 半精度浮点数来说,动态范围相称,在相同加速平台上的峰值性能显著超越后者,但 FP8 更少的位数有利于减小空间占用和提升网络利用效率,许可模型拥有更多的参数量,从而算得更快。
故意思的是 OpenAI 迄今为止推出的大模型,包括大家耳熟的 GPT,Sora.,Dell 以及本日提到的 Whisper,都是基于 Transformer 模型所开拓,这类模型的参数量巨大,并利用了 Transformer 模型所拥有的 Scability(可扩展性)特性,可以不断叠加模型的参数和神经网络层数,得到更风雅和强大的 AI 能力。
此外,OpenAI 团队也把稳到了 Transformer 模型的自把稳力机制,使其能够理解序列中任意两个词元间的联系并忽略间隔,提高输出的质量和连贯性。自把稳力还可扩展为多头把稳力,许可模型将数据信息切割细化为矩阵(头),然后对每个矩阵(头)分别进行自把稳力打算,末了合并输出。
在这两种机制下,Transformer 模型捕捉的信息类型更全面,学习能力和表达能力也更突出。正是由于 OpenAI 将 Transformer 模型作为产品发展平台的策略,以及 RTX 40 系显卡对 FP8 Transformer 引擎的支持,才使得 RTX 40 显卡成为普通消费者现阶段体验 Whisper 最得当的硬件。
这就不得不提到本次体验用到的两个主要硬件,第一个是 i9-14900K 处理器,作为最新一代消费级市场旗舰级定位的 CPU,其采取了 24 核心 32 线程的核心规格,最高睿频频率可达 6GHz,不仅自身性能刁悍,也不会影响显卡性能的发挥。
主角则是这款影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡,它基于 AD103 核心所打造,包含 8448 个 CUDA 核心,显存位宽提升到了 256bit,并拥有 16GB GDDR6X 的大显存。
它所搭载的第四代 Tensor Cores 核心专为 AI 而生,新增的 FP8 引擎支持,使其具有高达 1.32 petaflops 的 Tensor 处理性能,可实现稠浊精度打算,动态调度算力,对付万亿级参数天生式 AI 模型的演习速率提升 4 倍,性能可达 FP16 的 6 倍,推理性能提升 30 倍,非常适宜拿来体验 Whisper 的性能。
而在外不雅观上,影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡亦是设计感拉满,纯白卡身装甲,自带亚克力“水晶”外壳,三风扇支持 RGB 光环殊效,还附送专属定制显卡支架,颜值非常出色,拿来组白色海景房切实其实是绝配。
那既然是拿它来跑 AI,显卡驱动也得选 Studio 驱动,否则跑出来的速率很可能不太空想。目前 NVIDIA 官网供应的最新 Studio 驱动版本为 555.99。
支配 Whisper首先 Whisper 是一个模型而非软件,它基于 Python 编程措辞开拓,直接下载 GitHub 上的原版支配的话就须要通过命令行工具来运行。好在现在已经有不少支持 Whisper 的 GUI 软件,个中大略易用的代表便是 Buzz 和 Whisper Desktop 了。
选择这两款 GUI 软件的缘故原由也非常大略,第一是两款软件都免费,体积占用非常小,最新 v0.8.4 版本的 Buzz 安装包仅有 197MB,完备安装后的占用空间约 1.21GB,而 Whisper Desktop 乃至只须要 324kb 大小的单文件和一个配置文件就能运行。
第二是两款软件的界面非常大略,上手简单随意马虎。首先来看 Buzz,它紧张是通过 CPU 来跑 Whisper,因此兼容性更强,而且支持 Windows、Linux 和 MacOS 系统平台,非常全面。Windows 和 MacOS 用户都可以通过 GitHub 进行下载,Mac App Store 里的版本要价 9.99 美元,不是专业用户完备不推举。
在安装好 Buzz 后,我们要下载 Whisper 的模型文件,推举大家通过 Huggingface 镜像站进行下载,上面有 Whisper 模型的合集专题页,而且会保持更新。
Whisper 官方供应了 Tiny、Base、Small、Medium 和 Large 五种不同大小的模型,占用的体积依次增加,模型越大处理音频的韶光也越长,准确性越高。建议大家一步到位将五种大小的模型都下载下来,亲自试试效果。
这里须要把稳的是,原版模型的文件名后缀是.pt,如果你下载的模型文件名和后缀不同,很可能是别人转换或者微调后的模型。下载完成后,还须要将模型文件统一放在“C:\Users\ 电脑用户名 \.cache\whisper”文件目录下,然后支配流程就搞定了,是不是非常大略。
打开 Buzz 后,它的界面是这样的,非常大略粗暴,点击麦克风按钮将会采集系统声音来剖析正在播放的音视频中的语音,不过这种办法的识别精度比较低,建议大家还是点击“+”号按钮手动指定本地音、视频文件进走运算更加稳妥。
点击“+”号选择文件后,会弹出以上菜单窗口,须要依次选择模型类型、模型大小、处理办法以及识别措辞,然后在底部的导出选项中选择字幕文件类型。
这里我给大家做了一些中文注释,模型类型直接选第一个 Whisper 就好,体积方面理论上转写英语音频选择 Small 模型就能有不错的效果,中文音频则须要 Medium 或 large 模型,处理类型选择转写,由于转译是将识别结果翻译成英文,而且只能翻译成英文,局限性较大。
按理说对排版有哀求一定要勾选笔墨韶光戳选项,否则识别结果就会挤在一起,但是目前 Buzz 的笔墨韶光戳选项有 BUG,勾选后不仅识别速率慢不少,识别结果每行险些只有一个单词或单字,就像上图这样,好在不勾选它也会对每句话进行分段,末了导出文档类型大家按需选择。
全部选好之后点击右下角的“Run”按钮即可运行,识别过程中 Buzz 会给出当前的识别进度百分比,直到完成转写。
待识别进度变成 Completed(已完成)状态时,选中列表中的文件,点击“+”阁下的双箭头图标,会弹出识别结果的预览窗口,里面记录了每句话的韶光起始和转写结果,再次点击右下角的下载按钮并选择导出文档类型即可下载到电脑。
再看下 Whisper Desktop,首先是下载,Whisper Desktop 软件和模型下载地址我贴在这里,同样也是五种大小的模型,只不过文件名前缀和文件类型后缀不同。
然后是 Whisper Desktop 的界面和操作。打开后我们首先须要选择模型,Whisper Desktop 不须要指定的模型存放目录,手动选择模型地址就行。
大家把稳,Whisper Desktop 的模型文件并不是.pt 后缀的,而是.bin 后缀的,文件名中也多了 ggml-model 的字样,显然这是经由转换后的模型文件。
实际上,该软件便是 Whisper 的 ggml 版本,ggml 是一个用于机器学习的张量库,所利用的模型文件是 bin 格式的二进制文件,识别效果等同于 Whisper。
然后模型天生办法这里选择 GPU。高等参数设置中,有独显的选择独显,没有独显的则选择核显,我这里就直接选择影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了。
全部选好后点击 OK 进入二级页面,这里的操作步骤和 Buzz 比较类似,我也给大家都标注了中文注释,一看就会。选好后点击右下方的 Transcribe(转写)按钮即可。
比拟测试测试环节我们将进行四组不同语种、语速、类型的音源文件比较,比拟内容为识别 + 转写速率和识别准确率,比照工具则因此 Buzz 软件 + i9-14900K 的 CPU 处理阵营和以 Whisper Desktop + 影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡的 GPU 阵营。
第一次先看中文识别效果,我们在网高下载了一段锤子科技当年在鸟巢举办的新品发布会上,老罗对 TNT 功能进行演示的视频片段,然后转换为去掉不雅观众席声音的 5 分 30 秒 MP3 音频文件,这段中文语音中殽杂了中文、英文和数字,比较磨练 Whisper 的综合实力。
在同样选择 large 模型的情形下,Buzz 采取 i9-14900K 处理器渲染,终极转写速率为 3 分 08 秒旁边,Whisper Desktop 采取影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡渲染,转写速率为 26 秒,Whisper Desktop 仅用了 Buzz 软件 1/6 不到的韶光便完成转写,由此可见自带 Transformer 引擎的显卡对付 Wisper 的效率提升是巨大的。
转写排版上 Buzz 和 Whisper Desktop 在不选择韶光戳文本类型的 TXT 文件格式下,半斤八两,基本都能做到按照一句完全语音进行换行断句。
不过,在识别结果的字数上,两者竟然并不相同。Buzz 的转写字数为 910 字,而 Whisper Desktop 的转写字数为 933 字。识别准确性上,Buzz 识别缺点 27 个字 / 词,准确率为 97%,Whisper Desktop 识别缺点 9 个字 / 词,准确率 99%。为了不被有时性影响,我们连续测试三次,基本都是这个比例。
两者在缺点类型上,纵然我只截识别缺点的这句话,不联系高下文,大家都能一眼看出错在哪了,基本便是中英文混说 / 纯中文发音识别缺点。
其余,Buzz 输出某些英文也会识别缺点,而 Whisper Desktop 的英文和数字是完备没缺点的。至于为什么 Whisper Desktop 的识别结果字数要多一些,紧张是语音中存在重复说相同词语时,Buzz 有几率只转写一次,而且 Whisper Desktop 有些地方还会添油加醋,比如结尾莫名多出来一句感激不雅观看,还挺知心的哈。
第二轮比拟我们选择了一段 BGM 舒缓,类型为朗读的英文短篇,整体朗读速率较为适中,吐字清晰,音频时长为 1 分 31 秒的 MP3 音频,模型则选用了 medium。
这次的转写速率差距也非常明显,Buzz 转写耗时 26 秒,而 Whisper Desktop 仅用时 3.8 秒便完成转写。
在转写排版上,由于 Buzz 选择韶光戳文本有 Bug,以是 Whisper Desktop 略胜一筹。不过在识别准确率上两者完备打平,由于都是 100%,比较前文也提到了 Whisper 的英文识别能力非常刁悍。
当然,大家非常关心的日文我们也进行了测试,这次我们选择了一首日本歌手 BoA 演唱的《妖精的尾巴》TV 动画 OP 主题曲《MASAYUME-CHASING》,这首歌的 BGM 比较燃,语速相对前面的英文朗诵也快不少,还有很多重复叠声词,歌曲时长为 3 分 40 秒,测试模型选择 Large。
转写速率上,Buzz 用时 1 分 44 秒完成,Whisper Desktop 用时 17 秒完成,影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡再次完胜。
转写排版和前面的英文差不多,只是两者在一些语句的断句长度上有所不同。而准确性上,两者的很多缺点都一样,识别准确率都是 96%。但是 Buzz 有些地方错成了假名,而 Whisper Desktop 相同位置则错成了英文,比如歌词原句为“燃やせ胸の火を”,中文大存问思是“胸中之火熊熊燃烧”。Buzz 的转写结果为“燃やせ胸のヒール”,中文变成了“燃烧胸前的高跟鞋”,Whisper Desktop 的转写结果为“燃やす胸の hero”,中文变成了“燃烧胸前的英雄”。错的构造基本都是这种,懂日语的小伙伴可以在评论区阐明一下。
末了我们选择了一首英文说唱类型的视频,这个视频比较分外,首先它虽然是作者二创填词,但声音选择了 AI 配音,有很重的“花果山口音”,其次语速很快,每句话中都有大量的英文单词,吐字也不算很清楚,属于轻微“鬼畜向”的作品,我们同样将其转成 MP3 格式,采取 medium 模型,看看这种音频 Whisper 能搞定吗?
然而出乎猜想的是,Whisper Desktop 仅用时 2.6 秒就完成了转写,这也太快了!
Buzz 则花费了 1 分 03 秒完成。
可是这次转写的结果其实令人哭笑不得,Buzz 彷佛顺利识别出了整首歌的歌词,而 Whisper Desktop 直接扑街,一个字都没听出来,这下子高下立判了。
别急,仔细看 Buzz 的文档我又创造,它这个文案很多地方像“脑补”出来的,比拟原视频只能说错对一半一半,关键很多话中错了几个词意思就完备对不上了。显然,在面对 AI 配音 + 口音 + BGM 的场景,Whisper 彷佛也无能为力,以是大家就别指望用它来转写口语化很重、方言以及鬼畜视频了。
经由上面三组测试的比拟,我们可以得出以下几点结论:
比较 CPU,RTX 40 系显卡的 AI 性能对 Whisper 这类基于 Transformer 引擎所打造的多模态大模型是有绝对上风的。
影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡纵然在 Large 最大体积模型下,也能将 5 分钟以内的音频文件转写韶光压缩到 60 秒以内,16GB 大显存可以轻松驾驭 Large 模型的负载。
Whisper 对付中文的识别精度目前还算不上很出色,难度比较日语、英语都要大。而日文、东亚语种的识别准确率也是明显会差于英语的。但从缺点数量相对全体文本的占最近看,Whisper 依旧做到了 90% 以上的准确性,比较收费软件识别速率或许不一定会占优,但胜在免费、离线和低门槛,整体表现在免费转写工具中出类拔萃。
口音很重或者通过变声的 AI 配音、变声鬼畜向视频,不适宜利用 Whisper 进行转写。
除此之外还要特殊解释 2 点,一是拿 i9-14900K 进行比拟,紧张目的是给到大家识别速率上的参照物,并非为表明 RTX 40 显卡的 AI 性能一定比 intel CPU 强;二是大家利用 Whisper 进行识别转写前,最好还是通过三方软件,将音视频中的人声和 BGM 进行分离,识别效果会更好。
总结在 Whisper 合营两款 GUI 软件的体验过程中,除了支配阶段涉及到大量外网模型资源的下载有些麻烦,操作体验没有任何问题,非常人性化。
对付有非商业,非大批量语音识别 + 转写利用场景的用户来说,Whisper 足够知足他们的日常需求,而像影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡所拥有的 Tensor Core、CUDA 以及 16GB 大显存,能够轻松搪塞 Lager 模型给到的 AI 运算负载压力,给用户带来显著效率提升。
或许现在很多 AI 领域离我们的生活还很远,但不可否认的是,善用 AI 一定能让我们的生活变得更加美好。
末了,由于文中部分链接对网络环境哀求较高,这里就给大家附上这次测试所用到的模型资源好了: