科学家用AI翻译动物对话创造人类措辞并不独特

人类一贯期盼能与动物进行互换，如今AI正在帮助我们完成这一欲望。
从鲸类的繁芜社交措辞到家畜的感情表达，在破译动物措辞上，以大模型为代表的AI正凸显其浸染。
随着对动物的研究更加深入，我们也创造人类措辞并非那样独特。
更具实际意义的是，这类研究并没有过高的门槛——或许在未来，与宠物直接对话，用的便是你自己的研究成果。

撰文 | 郭瑞东

在电影《飞屋环游记》中，一只名叫逗逗（Dug）的狗戴着一个神奇项圈，它能将狗狗的叫声翻译成流利的人类措辞。
在现实天下中，非常演习有素的狗可以被教会按按钮，以回应人类措辞来实行大略的命令，如“出去”、“闲步”和“玩儿”。

与动物进行互换，是人类长久以来的梦想。
1973年诺贝尔生理学或医学奖得主劳伦兹（Konrad Lorenz）曾就该问题撰写《所罗门王的指环》一书，后成为领域内经典科普书，很值得一读。

科学家用AI翻译动物对话创造人类措辞并不独特

劳伦兹著作《所罗门王的指环》

近年来，已有不少用天生式AI破解动物措辞的考试测验。
本文将先讲述是哪些技能成分匆匆成了这些进展，之后先容几项干系研究成果，并以对未来的展望结尾。
对动物措辞的研究，不仅有助于我们更深入地理解和勾引野生动物的行为，还能对畜牧业生产有所助力。
对付爱宠人士，动物“措辞”的研究或许能够让我们更深入理解爱宠的诉求，从而得以“换位思考”，更谅解地关爱宠物。
而从知足好奇心的角度，这项研究有可能从进化和生理机制方面，为人类措辞的产生供应新的视角。
从更科幻一些的角度，破解动物措辞过程中所积累的技能，也将可能用在识别外星生物的措辞上。

更多的数据让AI破解动物措辞成为可能

2024年出版的一本关于动物措辞的精良科普读物《听不见的大自然——博物学家的自然聆听条记》，详述了近期科学家如何利用数字技能去理解自然，还谈到了过去人类在理解动物措辞中走过的弯路。
20世纪中期，人们曾多次考试测验教非人灵长动物利用人类措辞，当时的欲望是通过教它们“说人话”来评估它们的智力。
这一努力失落败后，人们创造这种做法有些过于人类中央主义了。
正如1974年美国哲学家Thomas Nagel在一篇著名的论文中问道：“成为一只蝙蝠是什么觉得？”他得出的结论是，试图根据人类心智和身体的框架去理解动物注定会失落败。
为了去掉人类的视角，他表示，研究职员必须把自己放在动物的“umwelt”（环境），但人类永久无法以蝙蝠的身体体验天下。

前文的“umwelt”是生物学家创立的一个术语，用以描述生物体的生活经历或天下不雅观。
如果我们关注某种生物的umwelt，比如蜜蜂的，我们当然不会期望蜜蜂说人类措辞，但我们会对蜜蜂的迷人“措辞”非常感兴趣——这是一种基于翅膀振动发声和三维空间位置的措辞，蜜蜂能用身体传达非常细微的差异，比如阳光的变革。
因此在理解动物措辞时，我们首先要做的便是考虑动物如何用自己的办法，用自己的身体，在自己的天下不雅观中进行繁芜互换的能力。

凯伦·巴克（Karen Bakker）著《听不见的大自然》

而在没有任何先验知识中学习到规律，正是大措辞模型善于的。
大模型通过处理大量现有的措辞内容来学习哪些单词该当组合在一起，以及以什么顺序组合。
例如，“他喜好加牛奶和两块糖的咖啡”，大模型学会了“咖啡”、“牛奶”和“糖”这些词常常一起利用。
换句话说，大模型并不是通过被教授语法规则来学习一种新措辞；也不是通过首先节制英语，然后通过处理大量翻译内容来学习西班牙语。
考虑到人类措辞和动物“措辞”存在潜在的相似性，比如险些所有人类措辞和动物的发声都是由音节长度和音高的停顿和变革构成的，这就为基于大模型破解动物措辞奠定了哲学上的可行性。
用《听不见的大自然》一书作者在FT Tech Tonic播客中说的，“你和我无法像蝙蝠一样反应定位，像大象一样吹喇叭，像蜜蜂一样嗡嗡作响。
但我们的打算机可以。
”

打算性能处理人耳听不到的声音。
人类能听到的声音范围是20-20,000赫兹，而海豚能探测的频率高达160,000赫兹；并且人工智能在识别细微差别方面更为善于。
视频是抹喷鼻香鲸之间的对话。
我们的大脑无法区分是哪头鲸鱼在说话，但是（理论上）可以通过演习模型来识别不同抹喷鼻香鲸的声音。
【视频请前往“返朴”不雅观看】

考虑到群居动物互换的时候，每每发声的动物不止一个，因此按来源分离重叠的声音，是利用AI解读动物措辞的第一步。
之后要做的是网络大量的数据。
这是目前的紧张问题之一。
由于纵然经由几十年的手工录音和拍摄，科学家也只捕捉到了所需数据的一小部分。
近年来，随着设备小型化、通信技能的进步，研究者可以让动物带上摄像头、录音设备或通过无人机持续记录数据，从而得以得到足够多的数据。
AI模型的演习过程，还是熟习的配方：例如向机器输入所拥有数据的80%，演习后的模型可以预测剩余20%，即动物接下来将发出什么音节。
这就像措辞模型基于演习数据，预测句子中的下一个单词一样。

繁芜的鲸类措辞

在先容基于AI解析动物措辞的详细案例之前，读者可以想想科学界为什么对鲸鱼感兴趣。
从历史文化角度来说，鲸歌在民间传说中反复涌现，人们一贯疑惑鲸鱼有着自己的措辞。
而从生理特性上，抹喷鼻香鲸拥有所有动物中最大的大脑，且以家庭为单位生存。
根据“社会繁芜性”假说，有着繁芜社交生活的动物须要蜕变出繁芜的措辞系统来应对社交需求。
事实上，人们不雅观察到抹喷鼻香鲸可通过类似摩尔斯电码的“点击”声进行互换。
例如多米尼加海岸附近的一群抹喷鼻香鲸利用1+1+3的声音来自我识别。
前面两个是均匀间隔的“点击”，之后是三个快速连续的“点击”。
随着越来越多的证据表明鲸类的互换不是随机的、偶发的、大略的，而是遵照繁芜逻辑构建，这就为首先研究鲸鱼措辞供应了必要性论证。

鲸类翻译倡议（Project CETI）是一项TED帮助的研究项目，该研究专注于抹喷鼻香鲸间的互换，操持用人工智能将鲸鱼发出的每个声音与特定的背景联系起来。

CETI项目的示意图丨图源：Project CETI / Alex Boersma

考虑到鲸鱼的叫声可以在很远的间隔内被听到——最远可达6000公里，理解哪头鲸说了什么以及什么情形下说的，对付人们理解“鲸语”潜在的含义至关主要。
研究者还要考虑鲸类的声纳定位。
所有有齿鲸类都有一个类似声纳发射的器官，它能用声音创建一个超出其眼睛所能看到的天下的3D视图，可类比智能驾驶中的激光测距雷达。
因此当鲸鱼向特定方向发声时，研究者须要研究与特定声音关联的局部环境信息。

2024年5月7日，来自重庆大学、麻省理工学院（MIT）及CETI的研究者在Nature Communication上互助揭橥的论文[1]可视为该项目的初步成果。
该研究利用机器学习对抹喷鼻香鲸录音做剖析并可视化，证明了抹喷鼻香鲸发出的声音是前后有关联性的，且像人类的发音那样，由不同特色组合形成。
研究职员网络了来自东加勒比氏族抹喷鼻香鲸的 8719 个尾声数据，构建了抹喷鼻香鲸的“拼音字母表”。
类似人类措辞，抹喷鼻香鲸发出的声音组合也不是均匀涌现的，某些组合比其他组合更频繁；不同类型的尾声依次组合在一起，产生了一个更大的不同发声家族，这让人想起人类语音产生的二级组合构造（可类比拼音中的声母和韵母）。
研究还创造，抹喷鼻香鲸可以发出不同的尾声模式，而其他鲸鱼则能识别出不同鲸鱼发声的细微变革，表明它们有音色判别的能力。

研究创造的抹喷鼻香鲸字母表示意图。
丨图源：参考文献[1]

CETI是一个预期持续五年的项目，如能完备成功，其结果也不会是将鲸鱼所说翻译成人类措辞。
AI可能学会说“鲸语”，但不是对人类说的，人类只能依据AI的结果综合剖析出鲸类在表达什么。
目前已有基于声音检测的程序，识别出生病或受伤的逆戟鲸[2]。
如果让AI学会鲸类在搁浅之前发出的声音，则可提前预警，为此准备预防方法。

船舶撞击对许多种类的鲸鱼构成严重威胁，想象一下，如果我们能“听到”一头鲸鱼或其群体在碰撞后呼叫声，得到的位置记录干系数据，一定会对未来的鲸鱼保护方法供应帮助。
（只管这些数据会让热爱动物的我心碎。
）

类似的项目还有地球物种项目（ESP），该项目试图利用AI工具来解码、标记乃至回应包括白鲸、夜莺、乌鸦和座头鲸等各种动物的叫声。
该研究的成果之一是“动物声音基线”BEANS（the BEnchmark of ANimal Sounds[3]），这是一个包括12个物种声音的数据集，涵盖鸟类、陆地和海洋哺乳动物、无尾两栖动物和昆虫，可用于检测干系分类算法的性能。

BEANS的概述。
丨图源：参考文献[2]

地球物种项目还在考试测验合成动物声音。
犹如人类的声音可以被深度假造一样，鸟鸣声也可以。
下面音频第一个片段是鸟类的录音，第二个是AI天生的鸟叫声。
【音频请前往“返朴”聆听】

让AI读懂动物的感情

不论是猪、牛或者鸡，这些畜牧业中最主要的动物，正在由于工业化的圈养，而受到越来越不人性的报酬。
工业化养殖不止侵害了喂养的动物，更不利于我们自身的生活环境[4]。
随着对动物权柄的关注，人们想要理解诸如猪、牛等动物的感情。
这么做不止是为了符合（某些国家的）监管，更有可能产生实际的经济效益。
近年来华为、网易等大厂都推出智能养猪项目，得到了很多关注。

要想养好猪，首先要理解猪。
近年已有多项研究，基于AI通过猪、牛、鸡等动物的脸部图片、视频和叫声，识别其感情[3-6]。
研究职员通过多个摄像机持续记录动物行为，然后由兽医等专业人士根据场景进行人工标注：例如猪在吃东西时是愉快的，在被人拖走时是紧张的。
研究职员将其作为演习AI模型的标签，然后演习卷积（对图像）或循环（对声音）神经网络模型，给动物行为进行分类；末了用专家标注的标签当作金标准，用以评估模型的准确率。
这也是这类研究的一向套路。

用于猪感情识别的视频数据网络装置丨图源：参考文献[5]

分别处在愉快、中性、恐怖和愤怒状态下猪的图片示例。
图源：参考文献[5]

一项基于猪的45秒短视频进行感情分类的研究[5]，准确度达到89.4%。
另一项专注于猪和牛的研究（利用来自6个农场的3780张图片）[7]，通过识别动物耳朵动作和眼白区域的变革，研究职员构建了这两种动物感情的实时分类模型。
该模型将猪的感情分为6种，牛的分为3种，准确率达到了85%。

根据耳朵对猪和牛进行感情分类的示例丨图源：参考文献[7]

同样，家畜声音也被网络演习以理解它们的感情。
一项基于411头猪，生平中的7414叫声及对应背景数据[6]，研究职员开拓出分类模型，区分正向和负向感情，准确率可达到91.4%。
而一项预印本研究[8]利用了80只鸡的样本，细致地记录并剖析了它们在不同情境下的鸣叫。
为了确保系统解读的准确性，研究者与一个由八位动物生理学家和兽医组成的团队互助，建立基于深度学习的模型，该系统可识别多种感情，包括饥饿、恐怖、愤怒、知足、愉快和痛楚。

人工智能运用于动物研究不但是改进动物福利，更实际的是帮助检测动物疾病。
剑桥大学研究者开拓的AI系统能够检测羊的疼痛水平[9]，这有助于对常见但严重的动物病症进行早期诊断和治疗。
这项技能还可以运用于其他类型的动物。
干系技能完善后，可以在动物饮用的水槽放置摄像头，系统就能够识别出疼痛的动物，从而及时治疗，减少丢失。

更贴近生活的研究，来自对宠物感情的识别，例如文献[10]展示了对宠物狗感情的分类模型。
研究职员根据狗的面部图像建模，可识别不同品种宠物狗的感情。

当前市情上也有不少以“翻译宠物措辞”为卖点的APP产品，然而根据当前研究水平，AI只能够对感情进行粗略地划分，并不支持想象中的与动物进行多轮繁芜对话，这些APP也都是娱乐式的。
事实上，由于动物和人的生活环境截然不同，与动物无障碍的互换，或许永久是一个难以实现的梦想。

不同表情的宠物狗示例丨图源：参考文献[10]

除了影像和声音，理解动物还可以基于脑电数据。
2022年的一项研究便通过事宜干系电位（ERP）[11]，利用非侵入的办法，创造狗能够对人的声音迅速进行反应，能将人类富有感情的发声与其面部表情相匹配。
这项研究虽然与解读动物措辞无关，但有了动物的脑电数据，将更准确、更直接地帮人类理解动物的所思所想。

培养下一代公民科学家

从巴甫洛夫的狗到珍妮·古道尔的黑猩猩，人们对动物措辞和行为的研究，不断改变着我们认识自身的办法。
我们在动物中找到人性共有的部分，再反不雅观自身，找到人性中独特的与崇高的部分。
从动物措辞研究得到的新知越多，越让我们意识到和我们共享地球的生灵的繁芜性。
例如前述的关于抹喷鼻香鲸的研究，抹喷鼻香鲸能够通过节奏、语速、装饰音的组合产生繁芜的措辞，是除人类措辞外第一个具有组合排列特色的措辞系统。
自从哥白尼事理将人类从宇宙的中央驱逐以来，我们又一次创造自身并没有那么分外，这能教会我们要在未知面前保持谦卑。

然而人类可能永久无法破译动物的措辞。
子非鱼怎知鱼之乐，对动物的感情进行大略分类，是基于人类专家按照自身umwelt的先入之见进行的判断。

除了优点，我们也不该忘却技能存在被滥用的可能，以及新技能对生物伦理提出的新问题。
识别鲸鱼的措辞后，或许会让某些不择手段的公司跟随鲸鱼，前往未知的渔场捕鱼；纵然算法能够天生足以以假乱真的抹喷鼻香鲸的叫声（通过了抹喷鼻香鲸版的“图灵测试”），贸然将合成的声音引入自然界已有的互换系统，也有可能改变鲸鱼之间正常的互换，或引发鲸鱼的焦虑，导致对野生动物的侵害。

不过，只管这类研究在哲学上存在争议，但其运用是具有实际的经济意义的，值得持续关注。
随着智能家居的遍及，自家宠物的一举一动都将被记录，为宠物开拓的智能硬件，将会不仅跟踪宠物的饮食饮水、运动状况，还可能记录宠物的心跳血氧等数据。
拥有了这些数据，意味着我们能够对动物开展之前受限于技能条件的研究。

同时，这也意味着可以让更多普通人有机会成为“公民科学家”，通过贡献数据，进行干预性实验，以及参与数据剖析，切身参与到第一线的科研活动。
例如在很多轶事中涌现的有超强学习天赋的狗，但如果只是特例的一两只，无法视作严谨的科学研究。
2023年的一项研究[12]显示，通过普通人参与数据网络，有41只被认定为能根据主人指令拿起特定的玩具；基于网络到的数据，研究者进行了统计剖析，创造了这些“天赋异禀”的狗的共性，乃至它们可被视为一个全新的品种。

类似的研究，可以在众筹网站上由爱好者自行开放谈论，完善实验设计，召募所需资金，之后招募志愿者完成实际数据剖析，终极互助撰写研究报告。
例如笔者构想，可以让狗狗带上类似GoPro这样的相机，去记录遛狗时狗与其它动物间的互动：当遇见体型明显比自己大的狗，与体型比自己小的狗的时候，发出的叫声（或遇见同一性别或不同性别）有何差异。
人们可以构建基于类似的动物互动的AI预测模型，搭建站在宠物视角的“翻译运用”。
而非当下站在人类视角，将狗叫声翻译成如何想要与人互动这种“谄媚型”的运用。

这样的经历，对参与者来说会是一次有切身体验感的科普活动，会让他们懂得科学方法，提升批驳性思维。
类似的科研活动，比如记录鸟类的叫声和影像，门槛低、意见意义性高，是大多数人都可参与的，尤其适宜亲子互动。

参考文献

[1] https://www.nature.com/articles/s41467-024-47221-8

[2] https://blog.google/technology/ai/protecting-orcas/

[3] https://arxiv.org/abs/2210.12300

[4] 菲利普·林伯里（Philip Lymbery），失落控的农业，公民日报出版社，2019.

[5] https://www.nature.com/articles/s41598-024-51755-8.pdf

[6] https://www.nature.com/articles/s41598-022-07174-8#Ack1

[7] DOI: 10.1101/2021.04.09.439122

[8] https://www.researchsquare.com/article/rs-3034567/v1

[9] http://www.cl.cam.ac.uk/~pr10/publications/fg17.pdf

[10] https://www.nature.com/articles/s41598-023-30442-0

[11] https://royalsocietypublishing.org/doi/full/10.1098/rsos.211769

[12] https://www.nature.com/articles/s41598-023-47864-5

出品：科普中国

特别提示

1. 进入『返朴』微信"大众号底部菜单“佳构专栏“，可查阅不同主题系列科普文章。

2. 『返朴』供应按月检索文章功能。
关注公众号，回答四位数组成的年份+月份，如“1903”，可获取2019年3月的文章索引，以此类推。

版权解释：欢迎个人转发，任何形式的媒体或机构未经授权，不得转载和摘编。
转载授权请在「返朴」微信"大众年夜众号内联系后台。

每期AI知识网

科学家用AI翻译动物对话创造人类措辞并不独特

珠海SEO优化步骤助力企业在线上腾飞

PS鼠绘写实相机图标UI设计教程史上最全没有之一