这些 AI 产品正在打破 43 亿人的障碍

听障人士虽然听不见或者听不清音乐，但他们可以通过手语翻译员传染力极强的手部动作、面部表情、肢体措辞，感想熏染到音乐的律动、氛围的热烈。

这可能是健听人意想不到的手语场景。
实在无论线上线下，须要手语翻译员的地方还有很多，然而僧多粥少。

英国人 Sally Chalk，2002 年开了一家英国手语翻译公司，经由 20 年的经营，公司规模可不雅观，预约手语翻译员的韶光也缩短到了 30 分钟，但她还是不知足。

听障人士能不能立时获取手语翻译，就像在视频网站打开字幕一样？

这些 AI 产品正在打破 43 亿人的障碍

她的答案是，让 AI 加入进来。

从线上到线下，该当让听障人士多用「母语」

2022 年，Sally Chalk 开了一家新的初创公司——Signapse，专注开拓天生式 AI 手语翻译软件，将书面文本实时翻译为美国手语和英国手语。

今年 5 月，Signapse 拿到了 200 万英镑的种子轮融资，个中 50 万来自英国政府。

他们瞄准的一个线了局景，是火车站、机场等交通枢纽。

美国的辛辛那提/北肯塔基国际机场，已经和 Signapse 互助，在屏幕上投放美国手语，供应欢迎、安全、出发、到达等信息。

AI 是如何发挥浸染的？Signapse 基于大型手语数据集，并通过天生对抗网络（GAN）和深度学习技能，创造了逼真的、翻译尽可能准确的虚拟手语翻译员。

这些虚拟形象基于真人手语翻译员，每次被商用时，真人都会拿到分成。

考虑到机场的目的地、出发韶光、站台号码常常变动，通过与交通数据集成，Signapse 的手语翻译可以做到实时更新。

同时，Signapse 没有忽略线上的需求，也为网站和视频流媒体供应手语翻译。

只管 YouTube 等网站都有隐蔽式字幕了，但比较字幕，听障人士每每更喜好手语，由于手语具有独立于其他措辞的语法构造和表达形式，会让他们的上网体验更好。

你该当有把稳到，提得手语时，我们会用美国手语、英国手语的说法。
就像全天下的口语和笔墨互不相通，手语也包罗万象。

联合国统计，全天下大约有 7000 万人将手语作为紧张的互换形式，全天下利用的手语有 300 多种不同类型。
仅在美国，就有 50 万人利用美国手语。

以是，Signapse 目前所做的实在也很有限，只覆盖到了利用美国和英国手语的少部分人，以及有限的垂直场景。
过去两年，Signapse 每天创建约 5000 个英国手语交通公告。

Signapse 希望，未来他们的做事可以更加普适，拓展到教诲等场景，也更加个性化，支持用户自定义虚拟手语翻译员的外不雅观。

一方的水土养一方的 AI，海内大厂也有类似的手语产品。

AI 手语主播们，曾经涌如今腾讯的王者光彩直播间、华为的开拓者大会。

2022 年冬奥会，央视新闻和百度智能云曦灵联合打造的 AI 手语主播上线，天津理工大学聋人工学院参与了手语语料标注。

而在 AI 手语主播背后，百度智能云曦灵的 AI 手语平台，还能知足医院、车站、银行平分歧场景的快速手语翻译需求，和 Signapse 英雄所见略同。

更丝滑的出行、更沉浸的不雅观看体验、更无障碍的做事……

如果说手语翻译的改进空间比海更深，至少听障人士获取公共信息的办法，正在被 AI 改变，持续地泛起可见的浪花。

手语界的多邻国们

听障人士也要「听」音乐？听障人士看笔墨是不是就够了？这是范例从健听人的逻辑出发考虑问题。

实在，我们该当反过来问：音乐节怎么让听障人士也能有参与感？互联网怎么让听障人士有更愉快的冲浪体验？

以是，不是某个人流如织的车站多出了一块屏幕，而是那块屏幕本就该涌如今那里。

更多公司、更多个体正在借助技能的力量，让手语变得越来越有存在感。

让健听人学习手语，便是个中一种比较随意马虎想到的思路。

PopSign 是一款边玩边学手语的 app，利用 AI 手语模型，由 Google、罗彻斯特理工学院、佐治亚理工学院互助开拓，可在 Android 和 iOS 上利用，最紧张的用户群体是听障孩子的健听父母。

吸取背单词从「abandon」（放弃）开始、也以放弃闭幕的教训，PopSign 不是无聊地播放手语视频，而是用小游戏增强学习手语的兴趣和信心，和猖獗催你打卡的多邻国异曲同工。

想做手语界「多邻国」的，还有一家叫作 SLAIT 的美国公司。
他们供应的也是沉浸式的互动课程和测验，如果你做对了，AI 导师会给予你实时反馈，供应适量感情代价。

不过，教手语只是 SLAIT 退而求其次的选择，一开始他们想做的，实在是实时视频谈天和翻译的 AI 手语工具。

但巧妇难为无米之炊，SLAIT 是个小团队，没有足够的数据，也没有足够的资金，比起直接翻译手语句子，教单个手语词汇更加大略，但同样有代价。

翻译手语的辛劳活，就交给财大气粗的巨子们办理了。

2023 年 8 月，遐想巴西开拓了一款基于 AI 的实时谈天翻译 app，用来翻译葡萄牙语手语，未来操持覆盖到环球更多手语。

当听障人士对着设备的摄像头打手语，算法会即时将其翻译成葡萄牙语文本，传送给另一真个吸收者。

这样的工具该当多多益善，恰好和手语传授教化做事互补，让听障人士站在更主动的位置，更多地成为对话的发起方。

Google 则更加产品导向，发起了 2023 年 Kaggle AI 手语识别竞赛。

这场竞赛的主题很故意思——参赛者们基于听障人士自拍得到的 300 多万个手指拼写字符，构建利用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。

手指拼写属于手语的一种，利用手指的不同形状和位置来表示字母。
对付很多残障人士来说，利用手指拼写，比在智好手机的虚拟键盘上打字快得多。

以是，改进手语识别、构建手指拼写模型，是为了让听障人士可以直接用更善于的手语，而不是打字和说话，在手机上利用搜索、舆图、短信等功能。

更进一步，这也有助于开拓手语转语音的运用，冲破听障人士无法用语音召唤数字助理的僵局。

或者说，很多语音优先的产品，从一开始就没有考虑不善口语的用户，是时候补上漏洞了。

Google 首席无障碍研究产品经理 Sam Sepah，在接管福布斯采访时提到，他们的目标是，让手语成为利用 Google 产品时的通用措辞选项。

实在，这也该当是全体互联网的目标——让手语成为数字天下的通用措辞。

多邻国作为一款措辞学习软件，为每个人供应了平等的受教诲机会。
而 AI 手语产品们让人觉得到的是，本不该有的限定正在解除，哪里都可以互通有无。

AI 越强大，越要器重人性

5 月，GPT-4o 发布时，一个 Demo 视频很打动人，GPT-4o 充当了眼睛，让视障人士也能「看到」周围的环境。

视障人士从 AI 口中知道，白金汉宫上空飘扬着旗帜，河里的鸭子清闲地嬉戏，出租车就要到达跟前，他的嘴角随着 AI 的欢畅语调而上扬。

俗话说技能打开了新天下的大门，是否可以反过来理解，残障人士们原来生活在一个不为他们设计的天下？

世卫组织数据显示，环球 4.3 亿人须要通过康复治疗办理残疾性听力丢失。
手语翻译的数量远远不足，在美国，听障用户与美国手语翻译员的比例大约为 50 比 1。

以是目前来说，AI 手语只是起到补充和锦上添花的浸染，还不到「抢饭碗」的地步。

以上提到的 AI 手语产品，基本都是小规模的、垂直的、扎根特定地区的，填补真人翻译不可及的地方。

上个月，我还看到了一款很酷的 AI 手语产品。

罗格斯大学、卡内基梅隆大学等几所大学的研究职员，将公开手语视频处理成包含 8 种手语的数据集，演习了 SignLLM——第一个多措辞手语天生模型。

覆盖多种手语，可以通过文本提示词天生手语，那不是太方便了吗？但研究职员说了，请外界不要浮夸他们的研究成果，演示视频并非模型的直接输出，实际制作起来仍旧很麻烦。

同时，也有听障专家站出来表示，这些视频的手语翻译质量参差不齐，有的让人半懂不懂，有的完备理解不了，而且缺少面部表情，项目有潜力，但还要改进。

最主要的是，要让听障用户参与，揭橥他们的见地，共同完善产品，由于「没有我们的参与，就没有关于我们的决策」。

一个奇妙的感想熏染是，无障碍产品彷佛很难做得「性感」。

它们每每没法像大模型和 AI 硬件的发布一样让民气神激荡，总是和你说，功能有哪些，做事于谁，希望往后可以做到更好，不会「贪多嚼不烂」。

并且在风投的眼里，它们也是小众的、潜力未知的、未必有投资回报的。

但「AI 教母」李飞飞曾说，AI 是为了帮助人，AI 越强大我们越要器重人性。

所有人都该当不怕错过航班，所有人都该当可以和产品交互，所有人都该当享受音乐节。

那些曾经不被看到的、听到的也该被技能的光芒照耀。
打个共鸣的响指吧，让更多人的需求被知足，更多人的能力被增强，让我们得到更多，失落去更少。

张成晨

利若秋霜，辟除凶殃。
事情邮箱：zhangchengchen@ifanr.com

邮箱8

#欢迎关注爱范儿官方微信"大众年夜众号：爱范儿（微旗子暗记：ifanr），更多精彩内容第一韶光为您奉上。

爱范儿|原文链接· ·新浪微博

每期AI知识网

这些 AI 产品正在打破 43 亿人的障碍

仅需两张关键桢图片。即可自动生成中心动态帧

ai图片生成若何生成看这篇教程就够了