文 | 史中 文|史中

(零)红烧肉引发的血案

铁柱不顾旁人劝阻,找了一位黑客女友。

然而命运的赠送早就暗中标好了价格。

耳朵被虐哭正义师长教师傅怒搓 AI 为听感报仇

本日,他和女票吵架,女票不知施了神马法术,把铁柱的手机网速封印在了 6kbps,然后夺门而出消逝在夕阳下。

这个网速切实其实是谩骂,短视频刷不开,游戏打不了。
手机唯一的浸染就剩下给女友发信息道歉了。



但铁柱不打算屈从。

事已至此,先用饭吧。
他决定自己做一道红烧肉。

切好了肉,烧热了油,诶,后面该咋弄嘞?

铁柱取出手机,搜索红烧肉的菜谱。
然后,网络像体弱的邮差一样,困难地搬运远方的。

等了足足一分钟,才看完先容:“红烧肉是一道很普通的家常菜,一锅浓油赤酱,肥而不腻,放在桌子上一拍抖三抖。

又等一分钟,加载出一张红烧肉成品的图片。


又等了半分钟,才涌现第一步操作:准备新鲜的五花肉。

铁柱心态崩了,一怒之下关掉网页,嘴角流下了不争气的泪水。

就在这时,他溘然想到另一个女人——妈妈。

他打开手机QQ,试着给妈妈拨了语音电话。

网页都打不开,语音他也没抱希望。

但老妈的声音传过来时,铁柱惊呆了,居然清晰流畅。

千里之外,老妈挥斥方遒,一边跳着广场舞,一边指挥灶台前的铁柱做好了红烧肉。

那一刻,铁柱溘然被老妈的厨艺治愈,决定把女友召唤回来一起用饭,两人冰释前嫌,从此没羞没臊地生活在一起。


浅友们,故事当然是我编的,但个中的硬核技能却是千真万确的:

如今的腾讯老师傅,真的能够在打开网页都费劲的 6kbps 的极限弱网下实现“通话自由”。

这个技能得来不易,背后还藏着一串动人的故事,且听中哥逐步道来。

(一)只有耳朵负重前行的天下

“啪!

肖玮溘然打了一个响指,我一激灵。

“你有没有创造,人对付声音事宜是非常敏感的?”他说。

作为研究音频旗子暗记传输十几年的腾讯老师傅,肖玮对音频熟习到了“从声波里都能看出梦娜丽莎”的程度。

腾讯的技能老师傅

他见告我一件很委曲的事情:

千万年来,听觉都在用极小的“带宽”承担着极大的“信息量”。

啥意思呢?

人的脑袋上,有700万个视觉细胞,却只有2万个听觉细胞。

假如把它俩比作公司,那眼睛是个有 700 万员工的“大厂”,耳朵则是只有 2 万人的“创业公司”。

可是凭胸而论,人做决策所利用的视觉信息和听觉信息的比例,绝对不会是 700:2 这么夸年夜。

科学家们研究,根据场合的不同,视听信息在人们决策中的比例大概在 8:1 ~ 3:1 之间。

可以说,听觉用极其有限的数据量,托起了我们对付环境感知的半壁江山——贡献可谓杠杠的!

这还没有算把口罩带眼镜腿都勒耳朵上(乃至有时候还得挨一枪)的贡献。


耳朵负重前行。


话说回来,这科学吗?

音频是怎么用这么窄的带宽,贡献了这么丰富的信息量呢?

缘故原由就在于,人脑对音频旗子暗记的处理极其风雅:

环境里的噪音溘然变革,人立马会觉得哪里不对劲;

说话声音有瑕疵、失落真、微弱的颤动,人都能分辨出来。
(乃至有时人们不愿承认声音的贡献,把它归功于第六感。


说到这,我提醒你把稳:日常做事各个感官的资源也不是均匀分配的——分配给视频的资源一样平常是大头,分配给音频的资源一样平常是零头。

先说硬件:

就拿 iPhone 15 Pro max 来说,统共558美元的硬件本钱,屏幕占了 110 美元,摄像头 90 美元;而扬声器和麦克风各自只有10美元旁边。


再说软件:

就拿“腾讯会议”来说,一样平常要给高清视频预留的带宽是 4Mbps(每秒400万个比特),传输音频一样平常只给留 100kbps(每秒10万个比特)。

耳朵没人疼爱。


以是说,音频工程师玩儿的都是高端局:要用极其有限的软硬件资源,来硬控敏感且挑剔的耳朵。

他们面前的游戏是酱的:

如果用 100kbps 的网速楞传原始的音频,便是把大象塞冰箱,纯纯 Mission Impossible!

于是,前面只有两条路。

1、降落音频采样率。

你弱水三千我只传一瓢还弗成?比如上世纪90年代的电话机,听筒里的声音听起来非常闷,这便是采样率低的结果。

2、降落音频采样率,再用某种算法处理,只管即便往原声音“找补”一下。

没错,这个操作便是我们都听说过的“压缩”。
从早期的 ADPCM 到上世纪90年代涌现的 MP3 格式,也算是抚慰了一代人的耳朵。

压缩的事理大概是这样↓↓↓

敲黑板!
一涉及到“压缩算法”,这个事儿就磨练技能了!

由于算法和算法之间的差异,就像是“张华考上了北京大学,李萍进了中等技能学校,我在百货公司当售货员”这么大。

而且你知道吗?生命体的智能水平差异,实质上便是压缩能力的差异。
不久前我写了一篇文章《当 AI 活成了你的样子》,便是在磋商这个道理,强烈建议浅友去看看。

虽说人类对付音频的压缩算法一贯在进步,但最近十几年,已经一度慢到了“挤牙膏”的程度。

老师傅把能想的辙都想了,但把已有技能发挥到极限后,压缩就变成一个纯跷跷板:

1、要想省带宽,就得费算力。

2、要想省算力,就得费带宽。

这很好理解。
既然传输的原始数据少,那很多结果都得靠大量打算得到嘛!
反之,你要不想做这么多打算,原始数据还不给多些?

不过,漫长的黑夜总会过去。

2019 年旁边,一丝不易察觉的曙光开始洒落。

(二)以假乱真术:我们时期独占的光芒

我们来打一个比方。

现在,你是 A 国博物馆的馆长。

B 国对 A 国发动了战役,眼看就要攻陷都城。
总统决定撤离,撤离前给你派来一列火车,让你挑选一些最能代表 A 国文明的文物。

总统凝重地说:这一去,大概世世代代都无法再回来了。
我们的后人就要靠这一列车的文物来理解我们的文化,重修我们的文明。

你眼泪下来了:“总统,我们的文化博大精湛,别说一车皮,便是一百车皮也拉不下啊!

总统说:“为了给你挤出这一列火车,已经有无数前哨将士失落去了弹药补给,不可能再多了!

叨教,这时你会怎么办?

你能想到的办法,肯定是调集博物馆的专家谈论,选出你们认为最能代表 A 国文明的文物,然后反复考试测验用最紧凑的办法打包,把这一火车皮塞到爆!

没错,不知不觉中,你已经在研发压缩技能了。

1)为了能最大程度重修 A 国文明,不同专家选出的代表文物肯定不同,这便是利用的“采样方案”不同;

2)同样是塞满一车皮,好的专家确实能选出维度更丰富,更适宜重修文明的文物组合,也便是说,他们的压缩方案更优。

但是!
无论怎么挑选文物,这些方法终极都归为“经典压缩技能”的范畴。

难道。


还有什么更逆天的,降维打击的骚操作??!

没错,现在换中哥来当博物馆馆长。

中哥把专家们都叫来,让他们四步走:

1、找到最有代表性的文物,然后只留关键部分。
把霓裳剪开,只留最精美的纹饰;把瓷瓶打碎,只留最核心的图案。

2、然后再从不同领域挑选一些最有代表性的完全器物,不用太多;

3、把这些”零件“用最紧凑的方法打包,同样一车皮,我们当然可以携带更多东西。

4、到了新家园,我们依赖少量的完全器物加上浩瀚的精美残片,再加上文物专家的履历和聪慧,利用当地找来的赞助材料,就能复原这些文物。

用这种方法复建的博物馆,终极拥有的文物数量可能比只带完全文物的方法多三倍以上,完备打破了经典方法的上限↓↓↓

看到这,你可能皱眉:咋还毁坏文物呢?那末了复原出来不是赝品了么?

这就说到了精髓。

我们的目标是“对文明卖力”,而不是“对某个文物卖力”。
你可以说末了复原出来的文物是赝品,但它是根据科学严谨的方法复原的,“赝”得有道理!
在传续文明的意义上,它可以达到和真实文物险些一样的效果。

而且你想想,在传统方案中,我们可是把更多的“文物”给全体丢弃了,这难道不是更大的罪过吗?

看完这个比喻,我想你已经猜到了这种新一代的音频压缩方案,那便是——“人工智能加持的编解码”,简称 AI Codec。

它可以只用过去三分之一的数据量,复原出和传统压缩算法一样,乃至更好的音质。

肖玮所在的腾讯会议天籁实验室,前后花了五年韶光磨出这支宝剑—— Penguins AI 语音引擎。

少废话,先看东西,哦不,先听东西!

第一段是原始音频:

第二段是用经典算法 OPUS 适配正常的 20kbps 码率时压缩的音频:

第三段是腾讯老师傅用 Penguins 压缩后,用不到三分之一码率,也便是 6kbps 传输的音频:

第四段是用经典算法 OPUS 在 6kbps 码率下的压缩音频:

人的耳朵很敏感的,我担保你听到“第四段”时,已经不能忍它的全损音质了。

明确见告你,这第三段音频便是利用“声音残片”借助 AI 规复后的“赝品声音”。

现在只有 6kbps 的网速,只能在“三”和“四”中间选一个,你会选哪个?

反正就算是天王老子来了,我也会选第三个。

说到这儿,我插一句。
并不是说以前的音频老师傅有什么道德洁癖,去世活不愿意用 AI 天生赝品声音,而是由于之前的 AI 技能根本达不到“以假乱真”的效果。

不同码率传输,规复后的频谱比拟(赤色:原始语音 / 蓝色:Penguins@6kbps / 黄色:OPUS@6kbps)可见蓝线与红线非常靠近。

我们有幸能听到这第三段声音,须要感谢“天生式人工智能”(AIGC)在最近几年的突飞年夜进。

话说,腾讯师傅是怎么用人工智能把这些声音残片修复到和真的声音一毛一样嘞?

接下来看中哥徒手劈砖,给你掰开来讲讲个中的道理。

(三)从“二刺猿美少女”提及

先给你推举一个网址(链接放文末)。
你点进去,啥也不用干,它就会给你自动天生图片。

啥图片嘞?二次元美少女头像。

你盯着一张图片的天生过程,会以为匪夷所思。
由于它最初便是一堆“雪花”,然后每隔半秒就刷新一次,每刷一次就清晰一点儿,直到末了,少女定格在屏幕上。

我 50x 加速给你看下:

没错,这张图片便是这堆“雪花”通过 AI 模型算出来的。

详细来说,这个 AI 模型预测的是“噪声”↓↓↓

每一次它都会根据现有图片预测哪些点位是噪声,然后从图片中把噪声去掉;

再在这张新图的根本上重新打算噪声,去掉;

如此迭代300次,就涌现了一张少女图。

这个过程就像米爽朗基罗从一块里石头里反复敲掉碎屑,一贯敲掉 300 层,每一层敲掉的都是“噪声”。
末了剩下的部分,便是“大卫”。

你可能会问:为啥这个 AI 模型不断去掉噪声,末了剩下的便是美少女呢?为啥不是老爷们、皮卡丘?

由于这个 AI 模型当初便是用无数美少女的图片演习出来的。
个中饱含着对全天下美少女头像特色的理解,它只会画美少女。

就像米爽朗基罗刚动手的时候,虽然脑海里不能确切描摹出大卫成型后的每一寸肌肤,但他“方向性地”知道自己要雕一个健硕男子,末了肯定不会离谱到雕出个皮卡丘。

而随着他一层层雕刻,大卫的样子果真逐渐涌现,末了定格成现在的样子。

好,我们说回“美少女天生模型”。

从信息论的角度看:减少噪声的过程,便是向个中不断添加信息量的过程。

在开始的第 1 步,图像是一堆完备随机正态分布的噪点,谁都猜不出末了出来的美少女是啥样,个中蕴含的信息量可以视为0;

但到了第 100 步,图像中已经蕴含了一些信息,但如果你是个老二刺猿,大概基本能猜出末了的成品是啥样了。

到了第 200 步,图像中的信息已经很丰富了,哪怕你是个普通人,也基本能猜出末了成品的样子了。

到了第300步,你就不用猜了,所有信息都展现给你了。

把稳!

从第1步到第300步,图片里的信息量逐渐增加,图片文件也越来越大。

如果我把信息含量更少的“第200步”版本传给你,而你手里的 AI 模型恰好能够把它复原成第 300 步的成品,咱俩不就可以节省传输本钱么?

在你同样可以规复图像的条件下,我给你通报这张图片的“第 100 步”版本,本钱不就越低么?

说到这,估计聪明的浅友已经觉得到这个“美女天生模型”和“声音复原模型”的关系了。

它们实质上便是一件事儿!

1、把我声波里的关键信息做一些提取;

2、然后把提取结果发给你;

3、你再用专门的 AI 模型把它还原出来!
流量带宽不就妥妥省下了吗?

2019年夏天,腾讯会议天籁实验室卖力人商世东找到同学们,便是商量这个神秘的议题。

作为在音频领域深耕二十多年资深音频人,商世东清楚编码器对生态的代价,这么多年也亲历了不少编码器江湖的往事,他以为新的时期快到了。

大家同等决定,开始在 AI Codec 的“无人区”里搞搞事情。

之前我们说过,AI Codec 就像是在文物局部取碎片,而 Codec 就像是取全体的文物,它俩的采样机制完备不同。
可以说,AI Codec 为核心的编解码器,险些是一项全新的技能。

全新的技能,破旧立新,改天换地,多酷!

从看热闹的角度确实酷,从干活儿的角度嘛。


这里面有三个大坑:

第一坑,这个 AI 模型受到的限定贼多。

这里就得提到 Penguins 底层技能的另一个贡献者:腾讯 AI Lab。

腾讯 AI Lab 的阳珊见告我,实时通信的场景既要高质量,又要低繁芜度,还要低延时。
单独知足某一个都不难,但做出既要又要还要的模型,就纯纯难煞打工人了。

第二坑,腾讯这帮产品经理,那可是太难缠了。

腾讯以产品著称,以是产品经理极其宠溺用户。

他们“龟毛”到了啥程度?但凡技能同事拿来的新玩意儿可能造成用户体验有一丝一毫的低落,甭管本钱降落多少,都不可能改换。
您就别找我谈,面斥不雅观观。


以是,在找产品经理之前,老师傅必须在家里先“暗搓搓”测试完。

腾讯会议质量测试团队的高雄见告我,他们专门搓了一个评价系统,同时测试传统方案和 AI Codec 方案,这样才方便比较嘛。

这个别系外号叫“包上苍”,每次改进,但凡有一点不合格就会打回来,技能老师傅愉快得拳头都硬了。

实在,技能团队和测试团队两拨师傅从没红过脸,毕竟知道他们“是为自己好”。


第三坑,还得看新技能的改造本钱呢!

根据天籁实验室的履历,音频编解码技能假如在体验打平的条件下,本钱不降落个20%,产品团队基本不会考虑。

然鹅,刚才我们说了,AI Codec 是一项全新的技能。
如果说传统编解码器的升级像是把屋子重新装修,那么 AI Codec 就像是把屋子拆了重盖!

这么大动兵戈,只多 20% 的好处,那人家房东肯定还是不干啊!

2019 年底,肖玮他们就关起门来打过算盘,要想让新编解码器惊艳众人,最少得把性能提升个 300% 神马的。


在业界,对付音频质量的好坏实在是有一个评分标准的。
5 分是完美,0 分是完备没法听。

腾讯产品的“龟毛”哀求,一样平常最低得是 4 分,最好是 4.5 分。

要想担保 4 分的用户体验,音频界公认的最低网络哀求大概是 20kbps,也便是说,天籁实验室的目标只能是:效果做到 4 分以上的同时,把网络哀求降落到 6kbps!

就像下面酱↓↓↓

当时老师傅们算出这个数,把自己都吓了一跳。

由于根本做不到,打去世也做不到。


搞技能要实事求是,不能搞什么“亩产万斤”,他们只好含恨把这条技能路线放下了。

但是,这个动机如微弱的火苗,一贯在大家的脑回路里燃烧,等待有一天找到喷薄的出口。

(四)不管黑猫白猫

话说,老师傅到底卡在哪了呢?

你还记得我们之前说过的“跷跷板”么?

在技能一定的条件下,带宽和算力是此消彼长的关系。

如果用 AI 模型来做编解码器,把带宽速率压到 6kbps 实在是可以的,但是此时要把它规复到 4 分的音质,就须要一个很大的模型来搞,乃至光靠 CPU 都跑不动,得上 GPU。

这个模型说大,实在也不大。
全天下对付音频处理的哀求都是很苛刻的,不可能给到和视频处理一样的软硬件资源,大概全体手机,能划给你5%~8%的算力就顶天了。

当然各个手机的算力不同,但均匀而言,这个限定下,模型的个头(或打算量)至少得从姚明砍到郭敬明。

可是怎么砍呢?

从 2019 年底开始,天籁实验室一贯有一支小分队研究这个事情,他们不仅自己琢磨,也在关注国内外学术界的进展。

碰着有戏的技能就做一个 Demo,创造走不通就回来,也没设定时间表。

但到了 2020 年,老师傅的思考节奏被惊惶失措打断——疫情袭来。

你可能还记得,便是这年春天,腾讯会议溘然蹿红,成为了大家办公上课的刚需。

当时老师傅们也顾不上新技能的研发,每天都在想着找资源扩容,寻思用什么姿势才能顶住下个周一更大的流量洪峰。


这段经历看似是支线任务,但现在回望,它给天籁实验室留下一个闪亮的精神遗产,那便是:

关键时候,当几亿人急迫须要大规模通报信息时,他们会捐躯画面,而声音是末了的信息承载渠道。

此时,“以低带宽承载高质量的音频”就不再是一个锦上添花的“玩物”,而是支撑我们社会运转的“基石”之一。

把这个技能做出来,成了老师傅面对历史的任务!

疫情刚一稳定,天籁实验室就抽调出主要的同事,开始加码 AI Codec 的研发。

到了 2021 年,他们心里已经隐约勾勒出一种可行方案。
但愣是没敢张扬。


为啥呢?

当时天籁实验室已经推到了“无人区”。
市情上没有别人的技能可供参考了。
他们抱着这个自研方案站在那里,旁边都没人跟上,多少带点胆儿秃。


就在这时,天籁团队有时翻到了微软音频技能团队一个简短的分享。

文章只有区区几百字,根本看不出啥信息,但他们一下子跳起来了。
在荒无人烟的原野,只要能瞄见另一个猎手的影子,他们就足以心安,自己追踪的方向对了!
更何况看到的是一个公认的“好猎手”。

肖玮嗅到了猎物的味道。
他建议投入重兵,拉上 AI Lab 的阳珊他们,赶紧开整!
已经前后追踪了三年,可不能让其他猎人给打了去!

卖了这么大的关子,到底技能是咋实现的?

实在捅破窗户纸就很大略:这个方案把“经典旗子暗记处理技能”和“AI Codec”结合了起来。

既然纯粹用 AI 算力不足,那可不可以在所有频谱上,只划出一部分主要频谱交给 AI 模型处理,剩余的还交给经典技能处理?

这样模型的打算量就不会超纲,总体质量还能担保喷鼻香喷鼻香!

就像下面这样↓↓↓

你可能会说:就这?

话说,音频处理领域就像一个武林,各个门派还是有很深的成见的。
AI 派看经典派是行走的古董,经典派笑话 AI 派拿锤子看什么都是钉子,两边常常隔空吵架。

但肖玮他们的意思是:最厉害的功夫,本来就不该有“门派”。

我是来做成这件事儿的,自然是哪招好用用哪招!
黑猫白猫,抓到老师是好猫啊!

况且,即便“就这”,里面的学问还大着呢!

究竟把哪些频谱交给 AI ,把哪些频谱交给经典,才能让总体听感保持最佳呢?

对付语音旗子暗记来说,原则上低频声波携带的信息对听感影响更重,高频声波携带的信息对听感影响更轻,也便是说,要把 AI 只管即便用在低频波段上。

经典旗子暗记处理,高低频的码率分配大概是 1:8。

用这种“AI+经典”杂糅的方案,高低频的码率分配大概是 1:2~1:3。

就像下面这样↓↓↓

嗯,纸上推演,彷佛还不错!

老师傅动手实操,试着从频宽中间画了条线,然后分别处理,结果是。



弗成!

虽然总体打算量确实是下去了,但听感也下去了,用这种方法压缩的音频在 6kbps 的码率下居然低于 4.0 分。

“不叫事儿”,老师傅安慰自己,以为调调就能过去。
但谁承想,低码率下的听感像是被强力胶粘在了 3.x 分,无论怎么左冲右突,去世活上不去 4.0。

调到末了,老师傅已经双目失落神双耳失落聪了。


苍天啊大地啊!
明明技能实在已经打破了,但间隔“腾讯级标准”就差那么一neinei,这也太窝火了。

但创新不就像打猎么?有时猎物就该在附近,猎手偏偏原地鬼打墙。
此刻越急越找不到,镇静下来没准却能不期而遇。

那天夜里,万籁寂静。
躺在在床上,肖玮溘然睁开了眼,他仿佛听到了千军万马,正赶来增援。

(五)来自 40 年前的援军

人的听力并非来自某种设计,而是漫长的自然蜕变中和环境互动不断进化的结果。

这是一个大家都明白,但又极易忽略的道理。

由于进化历史的繁芜,在很多细节上,人的听力是“不讲武德”的,或者说,它背后的道理是不能那么随意马虎讲清楚的。

比如在佃猎时期人们须要分辨鸟鸣,蜕变就调高了特定高频处的敏感度;比如有些频率是野兽吼叫的声音,会引发我们的杏仁核产生恐怖。

这就造成,人的听觉系统虽然整体上侧重某个频段,但蜕变又在这个大概的规律上持续给不同频谱调度“权重”——终极,人的听力不再是一个大略的直线,而是充满了难以阐明的“小起伏”。

既然听力不是一个直线,那么你用一条直线去做事它,耳朵怎么会满意嘞?

这张图显示了:相同音量下,人耳对不同频率声音的感知度是不同的。

耳朵里的事情,须要巧取,不能硬来。

肖玮给我科普。

想明白这些,老师傅面前的问题就变成了:不同频段里,到底哪些细节对付听感而言是主要的呢?

这个问题,对码农来说实在超纲了。


它该当由“生物学家”“医学家”或者“听觉科学家”来回答。

但直觉见告肖玮,人类研究声学旗子暗记这么多年,自己不可能是第一个考虑这个问题的人,一定有古人做过研究。

于是老师傅们决定——翻论文!
各种有关听力研究的,越精专越要啃,越艰深越不放过。

如山的论文,从 2021 年底看到了 2022 年初。

功夫不负苦心人,就在 2022 年春节前夕,他们居然找到了一篇上世纪 80 年代的论文,恰好研究了人耳在各个频谱上的细节特性。

踏破铁鞋,老师傅如获珍宝,赶紧按照个中的结论来调度系统框架,重训模型。

春节一回来,模型还在迭代收敛中,就看到了评价系统的客不雅观评分超过了 4.0,一样平常来说,这种情形下主不雅观评分只会更高!

所有人的心脏都在突突地跳,这事儿成了!

果真,模型终极收敛,全体系统封装之后,可以在 6kbps 的情形下,让通话入耳感保持在 4 分以上。
生生把最低码率压到了原来极限的三分之一。

Penguins 编解码器出身了!

在音频旗子暗记处理界,有一个公认最难缠的客不雅观质量测试标准,叫“ITU-T P.863”。

这个标准是由一众老牌声学家主导制订的,它关注的紧张方向便是人的细节听感。

实际上,很多基于 AI Codec 的压缩方法在这个测试中得分都不高,以是他们常常心照不宣地跳过这个测试,反正生手也不懂。


天籁老师傅们点点头,咱就得用这个指标磨练自己的成果!
能够在这个客不雅观测试标准中取得好成绩,大概率 Penguins 也能给召盘呱呱的主不雅观通话质量。

果真,在这个测试中 Penguins 甩开对手老远——毕竟它的关键设计思路便是在细节处给耳朵“跪式做事”嘛!

这张图里,蓝色柱子是 Penguins 的得分,橘色柱子是同样采取了 AI Codec 技能的 Lyra2,可以看到 Penguins 表现全面领先。
绿色和玄色柱子是基于传统旗子暗记处理的 EVS 和 OPUS,与这些传统旗子暗记处理方法的中高码率的质量比较,Penguins 也不逊色。

普通人大概很难想象,终极帮他们打胜仗的决定性援军,是来自 40 年前的一篇发黄的论文。

实话说,这篇论文的作者早已不再生动,但他的研究成果却守候在永恒的历史岸边,横跨 40 年时空,把水中挣扎的素不相识的一群技能人拉上了岸。

他们相互对视,鞠躬致谢,然后挥手告别,这是一种无法言说的浪漫。

真正让老师傅以为自满的是:

这篇论文一贯在那里,它像一扇门,谁都可以推开。
但是天籁实验室终极想到去推这扇门,靠的并不是侥幸。

过去几年无数考试测验碰钉子后的履历,无数眇小技能打破积累出的直觉,无数次由于任务而决定再试一次的发愿,都化成一级级台阶,终极指引老师傅走到了这扇门前。

正所谓世上没有白走的路,每一步都算数。

手握这个性能狂飙三倍的音频编解码标准,老师傅终于有勇气敲响产品团队的大门,这第一战,当然便是和自己关系最密切的腾讯会议!

(六)只有 6bps 的天下

在音频处理界有句俗话:

算法好不好,现网跑一跑。

这是由于在现实生活中,网络环境比实验室繁芜千万倍。
实验室里的数据再炸裂,都不能代表它实际就很好用。

天籁实验室的算法同学找到腾讯会议的产品同学时,腾讯会议的伙伴建议,先从带宽最低的“驾驶模式”和“弱网模式”入手。

现有的编解码器在 6kbps 下肯定卡,那就去世马当活马医,把这部分的编解码器更换成 Penguins,反正不会更坏了。


在软件里更换掉编解码器已然工程量巨大,但这还只是万里长征的第一步,老师傅们必须对付各个车型、机型在各种实际网络工况下做实际测试。

这时,工程团队和测试团队就必须配合尽力。

肖玮回顾一个搞笑的细节:2022 年他们开着自己的车在公司附近兜圈,便是为了找到哪儿旗子暗记只有 6kbps。


这不是在摸鱼旅游,是师傅们兜兜转转找弱网的地方时拍的。

“关键是旗子暗记还要稳定地差!
有的地方测了两天之后,可能运营商也创造这里旗子暗记弗成,给强行改好了,这就很尴尬。
”他吐槽。

有时候为了找到一个弱网环境,老师傅开车兜一天,油钱都心疼。

除了探求各种网络外,老师傅还要探求各种手机。

由于他们必须确定:在各种机型、芯片、操作系统的组合下,尤其是在综合性能较差的手机里,编解码系统都能按预想的姿势干活。

“非要把所有机型都真实测一遍吗?这效率也太低了。
”我问。

“就像瑞士腕表,钟表匠测试腕表质量,就必须让表真的转那么多天;就像汽车防撞、手机跌落测试,厂家真的就得去撞去摔。
现实天下很繁芜,在测试环节没有用虚拟替代现实的捷径。
”高雄阐明道。

就这样,各种弱网、弱机都被他们搞了一遍,确实创造了很多隐秘的小坑。

他给我举了一个“数据包”的小例子。

网络传输音频旗子暗记有点像寄快递,是一个数据包一个数据包传送的。

传统方案当然是给每一帧音频信息打一个包。

但是问题来了,每一个包表面还得有“包装”,包装上标注了这个数据包的基本信息,从哪来到哪去之类的,这便是“包头”。
包头当然也占用一定的信息空间。

在新的编解码技能下,每一帧的有效数据量变成了原有的三分之一,这时包头的比重就变得很大,再这样一帧数据打一个包就不划算了!

于是老师傅们决定——把两帧打进一个数据包。

像这样的小改动还有很多,它们大多办理起来并不难,只是很噜苏。

“实在有多少黑科技,就有多少工程量。
”卖力工程化的文龙吐槽。

他用“短木板”理论打了个比方:

算法的改造带来的是体验的上界打破,肯定让人愉快;但是工程底坐却是担保统统成功的条件。

没有一个王牌 App 是通过各种高精尖算法大略堆砌而成的,由于稍不把稳,黑科技成了那块“短木板”了!

为了担保 Penguins 能够用起来,当时工程团队把客户端、做事后台等好多节点都重新打磨——险些所有的重点处理链条都进行了针对性改造。

花了小半年韶光,新的编解码器终于在腾讯会议里成功安家。

接下来,腾讯会议又逐渐切换,把原有编解解码器完备过渡到 Penguins 上,至此,从2019年就开始研究的技能,时隔漫长的三年,终于在第一个产品里实现了完全落地。

顾不上喘气,老师傅又盯上了下一个“猎物”,那便是 QQ。

QQ 研发团队的天成给我爆了一些“底细”:

年轻人更喜好用 QQ,而且他们利用 QQ 的姿势和我们这群老人用微信的姿势不同。

比如,年轻朋友之间,干啥都要连着麦干。
哪怕各自刷网页,也要保持着通话状态。

乃至,情侣可能会“连麦陪睡”——俩人一宿不挂电话,听对方睡觉,或者打呼噜。


这已经不是“煲电话粥”了,切实其实是“吸电话氧”了呀!
不理解,尊重吧。


永劫光通话,网络环境肯定会经历各种变革,QQ 要想担保他们在任何时点都不被卡掉线,就更困难。

关键是,年轻人比较“贫苦”,用的手机大都不高端,这进一步压缩了编解码器的运算资源。

这。


不便是 Penguins 最好的用武之地吗?

于是在 2023 年,天成带领的 QQ 团队 也完成了编解码系统的改造,在只有 6kbps 的天下里完成了“荒野求生”!

到这一步,天籁实验室的师傅终于能腾出脑袋,思考那个“更辽阔”的问题:

既然技能飞跃这么大,而且已经在两大 App 上证明了自己,我们能不能去申请成为下一代语音通信的编解码标准呢?

凭借对标准的理解,老师傅们确信:在现有的标准体系里,AI Codec 标准妥妥是一片待开拓的沃土。

尚世东调集算法、工程、质量等等团队,开始向中国的标准化组织——AVS——递交申请。

(七)成为榜样

说到音视频压缩传输标准,估计有的浅友以为这是某种“名誉称号”。

实在不然,从历史上看,音视频压缩标准一贯是厂商乃至国家之间角力的沙场。

就拿大家平时看片都会用到的视频压缩格式“MP4”和“MPEG”来说,它的音视频标准被称为“H.264”,背靠国际标准化组织(ISO)和国际电联(ITU)。
很多国际公司,例如杜比、索尼、AT&T 等都参与了这个标准背后的研讨。

H.264 的授权协议

而这些公司可没有在做慈善,他们通过 ISO 和 ITU,对每一个利用这个标准的厂商都收一些用度。

这本来没什么问题,但要命的是,这些国外大公司尝到了甜头,争先恐后地参与制订下一代“H.265”标准,而且大幅提高收费。

一台利用 H.265 设备要想不遭受专利诉讼,得在各个专利池里四处交钱,统共至少要掏 4 美元。


H.265 的“专利池”,碰到哪个都弗成

这一下子超出了大家的承受范围,导致很多厂商根本做不下去了。

大致在这样的背景下,中国成立了数字音视频编解码技能标准事情组,也便是 AVS(Audio Video Coding Standard Workgroup of China),便是为了绕过这些国际大厂的专利壁垒。

由于 AVS 紧张是为了国家层面技能自保,以是对付中国企业的专利收费是极其友好的,很多都是免费或象征性收费。

至 2024 年春天,AVS 已经经历了 AVS-1 和 AVS-2 两代,AVS-3 正在紧急编订中。

腾讯老师傅要冲击的,便是 AVS-3,确切地说是 AVS-3 中实时语音编解码技能的那部分。
作为中国企业、中国技能人,这不仅是任务,也是荣光。

这是国际上的一些标准源流

但可想而知,既然是标准,制订流程是非常严明的。
这次,老师傅的差错切换成了标准团队的专业咖,亚军。

亚军阐明了 AVS 标准化的大概流程:

1、作为音频编解码标准的主导方,腾讯须要提出足够的论据证明标准立项的主要性,这叫需求评审。

2、AVS 标准组认可并立项后,会发出技能征集书。

3、AVS 事情组成员会提出各种候选技能提案,连带自测结果。

4、多次谈论迭代并通过第三方测试后,会逐步形成稳定的标准文档和完全的参考代码。

5、末了把参考代码和技能征集书比对,如果指标全部知足,大家会表决通过,标准才终极出身。

这里首先要过的难关,便是“技能征集书”。

标准之以是叫做标准,便是由于它不是一家之言。
如果你的技能只适宜腾讯家的产品,那肯定弗成。

AVS 标准事情组会里有大学教授,有云打算厂商,有互联网厂商,还有手机等设备生产商。
各位师傅都面临自己行业的实际情形,根据这些提出指标需求。

每次都是大型辩论现场,谈论达成同等后,才能终极输出技能征集书。

征集书像是个“英雄帖”,接下到了大家各显神通的时候,要拿出自己的“技能提案”来知足这些指标。

这个是各项细节指标,你感想熏染一下(点击可以看大图)

肖玮把写送技能提案的事情比作“造炮弹”。

一旦开炮,炮弹离开炮筒,你就再没办法掌握了。
以是你不能放过自己,必须担保把炮弹造到最硬,再打出去。

老师傅先在自己的仿照环境里反复摩擦,又在腾讯会媾和 QQ 实战环境中反复打磨,磨到不能再磨,磨秃噜皮,终于在 2023 年底整体提交。

这一炮打响了!
提案通过了 AVS 组织严格测试,成为了稳定的“标准基线版本”。

这意味着:后续的迭代,都会在腾讯的“参考代码”上微调。

微调的事情一点儿都不轻松。

标准文档堪比学术论文,就连平时大家不太把稳的每一章概述部分都要千锤百炼,乃至由于一个标点符号要用分号还是逗号,大家都会争执。

虽然极度繁琐,但亚军知道这种辩论是故意义的。

由于标准一旦形成,它就会被成千上万厂商采取、实行。
每个标点都必须经得起历史的磨练。

到了 2024 年6月,知足技能征集书的标准交付件终于成型,很快大家就进入表决环节,各家企业代表此刻同等通过,这个新的音频编解码标准呱呱坠地,它便是——AVS3P10。

掌声热烈而漫长。

从 2019 年起心动念,到2022年落地实战,到 2024 年景为 AVS 标准,这条路腾讯老师傅们走了五年。

“其实在业内,一样平常都是五年做标准,五年做推广,统共要十年。
我们的标准快了一倍,已经算非常顺利了!
”肖玮说。

虽然不会把比较作为目的,但天籁实验室还是会积极关注国际上的同类技能进展。

事实上,国际上其他标准组织也在进行类似的事情。

但从目前进展和完成的情形,AVS3P10 为代表的中国标准不仅在标准进度上做到领先,在很多指标上也是领先的。

肖玮的话虽然克制,但难掩骄傲。

他值得骄傲。

从专利自保,到分庭抗礼,到自主创新达到国际顶尖,中国技能人用二十几年的光阴,穿越了前车卷起的漫天黄尘,闯出了自己的天地澄澈。

图片来自《飞驰人生2》

(八)漫长岁月里的款款声波

“手艺”是个古早的词汇,它是工匠手里的刻刀,也是电流中奔驰的代码。

过去几年,天籁实验室这群师傅的手艺不仅撑住了腾讯会议真实的 4 亿用户,还炼成了惠及 14 亿人的技能标准,堪称“爽文”典范。

但我却乐意提示个中“克制”的力量。

技能人最随意马虎犯的缺点,是笃信某种技能。

2016 年 AI Codec 横空出世,如核爆一样在技能圈炸开,让传统的音频编解码黯然失落色;它太优雅,就像电动汽车一样,用几台电机和一盘电池就能替代过去上万个零件组成的燃油机器。

于是,很多年轻的师傅激进地转向“纯 AI 派”,他们的情由很充分:具有底层前辈性的 AI 模型定能江山一统,实现“技能革命”。

但大多数时候,决定“做什么”是大略的,但决定“不做什么”却要依赖履历、聪慧以及强大的低廉甜头力,是更难的。

正如守旧主义哲学家家埃德蒙·伯克所说:“先例是人类的学府,具有原谅统统的气度和改进统统的才能,才是真正的改革家。

如此看来,天籁实验室的老师傅至少做对了两件事:

第一,等待良机:在看清技能路线之前,宁肯保存实力,也不盲目在新技能上扑入重兵。

第二,尊重先例:在 AI Codec 烈火烹油的时候,依然对传统音频编解码技能洞开大门。

事实证明,越是技能突飞年夜进的时期,越须要有老师傅抱持这种看似冰冷,实则温热的“守旧主义”态度。

回看中国的音视频编解码技能走过的道路,也是如此。

肖玮回顾起十几年前自己初次参加国际标准谈论的情景:

当时他觉得到巨大的反差。
其他国家的代表团都是连鬓络腮白胡子,一看便是干了多数辈子的老法师;再看中国代表团,清一色都是二十来岁的毛头小伙子、小姑娘。

一个国外老哥专门走过来问肖玮:“How old are you?”

外国老哥阐明,在他们国家,必须是在行业里摸爬滚打二十年以上的技能人,才有资格参与这种规格的标准谈论。

肖玮有点儿不好意思:在我们国家,二十年前全体行业才刚刚起步。


不过从那往后,便是这些小伙子小姑娘,一贯在代表中国出席各种国际谈论,他们为全天下的音视频技能添砖加瓦,积沙成塔,以手中的代码而非年事赢得天下的尊重。

如今他们虽还没夸年夜到白胡子的年级,但确实都已更加成熟。
而在他们身后,正站着更多年轻的中国技能人。

一代代人,就这样前行,不疾亦不徐。
俯瞰他们的脚印,是漫长的岁月里一串声波。

而我们的历史,也在这样的声音里,滚滚向前。

再自我介绍一下吧。
我叫史中,是一个爱慕故事的科技。
我的日常是和各路大神谈天,欢迎和我做朋友。