听障人士虽然听不见或者听不清音乐,但他们可以通过手语翻译员传染力极强的手部动作、面部表情、肢体措辞,感想熏染到音乐的律动、氛围的热烈。
这可能是健听人意想不到的手语场景。实在无论线上线下,须要手语翻译员的地方还有很多,然而僧多粥少。
英国人 Sally Chalk,2002 年开了一家英国手语翻译公司,经由 20 年的经营,公司规模可不雅观,预约手语翻译员的韶光也缩短到了 30 分钟,但她还是不知足。
听障人士能不能立时获取手语翻译,就像在视频网站打开字幕一样?
她的答案是,让 AI 加入进来。
从线上到线下,该当让听障人士多用「母语」
2022 年,Sally Chalk 开了一家新的初创公司——Signapse,专注开拓天生式 AI 手语翻译软件,将书面文本实时翻译为美国手语和英国手语。
今年 5 月,Signapse 拿到了 200 万英镑的种子轮融资,个中 50 万来自英国政府。
他们瞄准的一个线了局景,是火车站、机场等交通枢纽。
美国的辛辛那提/北肯塔基国际机场,已经和 Signapse 互助,在屏幕上投放美国手语,供应欢迎、安全、出发、到达等信息。
AI 是如何发挥浸染的?Signapse 基于大型手语数据集,并通过天生对抗网络(GAN)和深度学习技能,创造了逼真的、翻译尽可能准确的虚拟手语翻译员。
这些虚拟形象基于真人手语翻译员,每次被商用时,真人都会拿到分成。
考虑到机场的目的地、出发韶光、站台号码常常变动,通过与交通数据集成,Signapse 的手语翻译可以做到实时更新。
同时,Signapse 没有忽略线上的需求,也为网站和视频流媒体供应手语翻译。
只管 YouTube 等网站都有隐蔽式字幕了,但比较字幕,听障人士每每更喜好手语,由于手语具有独立于其他措辞的语法构造和表达形式,会让他们的上网体验更好。
你该当有把稳到,提得手语时,我们会用美国手语、英国手语的说法。就像全天下的口语和笔墨互不相通,手语也包罗万象。
联合国统计,全天下大约有 7000 万人将手语作为紧张的互换形式,全天下利用的手语有 300 多种不同类型。仅在美国,就有 50 万人利用美国手语。
以是,Signapse 目前所做的实在也很有限,只覆盖到了利用美国和英国手语的少部分人,以及有限的垂直场景。过去两年,Signapse 每天创建约 5000 个英国手语交通公告。
Signapse 希望,未来他们的做事可以更加普适,拓展到教诲等场景,也更加个性化,支持用户自定义虚拟手语翻译员的外不雅观。
一方的水土养一方的 AI,海内大厂也有类似的手语产品。
AI 手语主播们,曾经涌如今腾讯的王者光彩直播间、华为的开拓者大会。
2022 年冬奥会,央视新闻和百度智能云曦灵联合打造的 AI 手语主播上线,天津理工大学聋人工学院参与了手语语料标注。
而在 AI 手语主播背后,百度智能云曦灵的 AI 手语平台,还能知足医院、车站、银行平分歧场景的快速手语翻译需求,和 Signapse 英雄所见略同。
更丝滑的出行、更沉浸的不雅观看体验、更无障碍的做事……
如果说手语翻译的改进空间比海更深,至少听障人士获取公共信息的办法,正在被 AI 改变,持续地泛起可见的浪花。
手语界的多邻国们
听障人士也要「听」音乐?听障人士看笔墨是不是就够了?这是范例从健听人的逻辑出发考虑问题。
实在,我们该当反过来问:音乐节怎么让听障人士也能有参与感?互联网怎么让听障人士有更愉快的冲浪体验?
以是,不是某个人流如织的车站多出了一块屏幕,而是那块屏幕本就该涌如今那里。
更多公司、更多个体正在借助技能的力量,让手语变得越来越有存在感。
让健听人学习手语,便是个中一种比较随意马虎想到的思路。
PopSign 是一款边玩边学手语的 app,利用 AI 手语模型,由 Google、罗彻斯特理工学院、佐治亚理工学院互助开拓,可在 Android 和 iOS 上利用,最紧张的用户群体是听障孩子的健听父母。
吸取背单词从「abandon」(放弃)开始、也以放弃闭幕的教训,PopSign 不是无聊地播放手语视频,而是用小游戏增强学习手语的兴趣和信心,和猖獗催你打卡的多邻国异曲同工。
想做手语界「多邻国」的,还有一家叫作 SLAIT 的美国公司。他们供应的也是沉浸式的互动课程和测验,如果你做对了,AI 导师会给予你实时反馈,供应适量感情代价。
不过,教手语只是 SLAIT 退而求其次的选择,一开始他们想做的,实在是实时视频谈天和翻译的 AI 手语工具。
但巧妇难为无米之炊,SLAIT 是个小团队,没有足够的数据,也没有足够的资金,比起直接翻译手语句子,教单个手语词汇更加大略,但同样有代价。
翻译手语的辛劳活,就交给财大气粗的巨子们办理了。
2023 年 8 月,遐想巴西开拓了一款基于 AI 的实时谈天翻译 app,用来翻译葡萄牙语手语,未来操持覆盖到环球更多手语。
当听障人士对着设备的摄像头打手语,算法会即时将其翻译成葡萄牙语文本,传送给另一真个吸收者。
这样的工具该当多多益善,恰好和手语传授教化做事互补,让听障人士站在更主动的位置,更多地成为对话的发起方。
Google 则更加产品导向,发起了 2023 年 Kaggle AI 手语识别竞赛。
这场竞赛的主题很故意思——参赛者们基于听障人士自拍得到的 300 多万个手指拼写字符,构建利用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。
手指拼写属于手语的一种,利用手指的不同形状和位置来表示字母。对付很多残障人士来说,利用手指拼写,比在智好手机的虚拟键盘上打字快得多。
以是,改进手语识别、构建手指拼写模型,是为了让听障人士可以直接用更善于的手语,而不是打字和说话,在手机上利用搜索、舆图、短信等功能。
更进一步,这也有助于开拓手语转语音的运用,冲破听障人士无法用语音召唤数字助理的僵局。
或者说,很多语音优先的产品,从一开始就没有考虑不善口语的用户,是时候补上漏洞了。
Google 首席无障碍研究产品经理 Sam Sepah,在接管福布斯采访时提到,他们的目标是,让手语成为利用 Google 产品时的通用措辞选项。
实在,这也该当是全体互联网的目标——让手语成为数字天下的通用措辞。
多邻国作为一款措辞学习软件,为每个人供应了平等的受教诲机会。而 AI 手语产品们让人觉得到的是,本不该有的限定正在解除,哪里都可以互通有无。
AI 越强大,越要器重人性
5 月,GPT-4o 发布时,一个 Demo 视频很打动人,GPT-4o 充当了眼睛,让视障人士也能「看到」周围的环境。
视障人士从 AI 口中知道,白金汉宫上空飘扬着旗帜,河里的鸭子清闲地嬉戏,出租车就要到达跟前,他的嘴角随着 AI 的欢畅语调而上扬。
俗话说技能打开了新天下的大门,是否可以反过来理解,残障人士们原来生活在一个不为他们设计的天下?
世卫组织数据显示,环球 4.3 亿人须要通过康复治疗办理残疾性听力丢失。手语翻译的数量远远不足,在美国,听障用户与美国手语翻译员的比例大约为 50 比 1。
以是目前来说,AI 手语只是起到补充和锦上添花的浸染,还不到「抢饭碗」的地步。
以上提到的 AI 手语产品,基本都是小规模的、垂直的、扎根特定地区的,填补真人翻译不可及的地方。
上个月,我还看到了一款很酷的 AI 手语产品。
罗格斯大学、卡内基梅隆大学等几所大学的研究职员,将公开手语视频处理成包含 8 种手语的数据集,演习了 SignLLM——第一个多措辞手语天生模型。
覆盖多种手语,可以通过文本提示词天生手语,那不是太方便了吗?但研究职员说了,请外界不要浮夸他们的研究成果,演示视频并非模型的直接输出,实际制作起来仍旧很麻烦。
同时,也有听障专家站出来表示,这些视频的手语翻译质量参差不齐,有的让人半懂不懂,有的完备理解不了,而且缺少面部表情,项目有潜力,但还要改进。
最主要的是,要让听障用户参与,揭橥他们的见地,共同完善产品,由于「没有我们的参与,就没有关于我们的决策」。
一个奇妙的感想熏染是,无障碍产品彷佛很难做得「性感」。
它们每每没法像大模型和 AI 硬件的发布一样让民气神激荡,总是和你说,功能有哪些,做事于谁,希望往后可以做到更好,不会「贪多嚼不烂」。
并且在风投的眼里,它们也是小众的、潜力未知的、未必有投资回报的。
但「AI 教母」李飞飞曾说,AI 是为了帮助人,AI 越强大我们越要器重人性。
所有人都该当不怕错过航班,所有人都该当可以和产品交互,所有人都该当享受音乐节。
那些曾经不被看到的、听到的也该被技能的光芒照耀。打个共鸣的响指吧,让更多人的需求被知足,更多人的能力被增强,让我们得到更多,失落去更少。
张成晨
利若秋霜,辟除凶殃。 事情邮箱:zhangchengchen@ifanr.com
邮箱8
#欢迎关注爱范儿官方微信"大众年夜众号:爱范儿(微旗子暗记:ifanr),更多精彩内容第一韶光为您奉上。
爱范儿|原文链接· ·新浪微博