编辑 |麦广炜
在数据和算法塑造的当代天下中,人工智能正快速地推动社会变革。
在此背景下,一群学者将关注投向了社会边缘群体——听障人士。他们通过深入的研究和开放的对话,探索科技如何成为沟通的桥梁,为每个人带来温暖。
最近,雷峰网组织的“AI+手语识别:技能改造与运用前景”线上圆桌论坛,汇聚了田英利、倪兰、苏剑波、方昱春四位教授,他们凭借对听障社群和AI技能的深刻理解,进行了一场内容丰富的对话。
两个小时的韶光里,他们谈得手语与打算机视觉技能、措辞学技能的结合,还谈论了伦理、隐私保护和实际运用等关键议题,为理解听障人士如何与科技领悟供应了新的视角。
这不免让人回顾起乔布斯所言:“技能本身并不敷以改变天下,关键在于技能背后的人。”这四位教授正是通过技能实现社会变革的代表。
田英利教授,作为打算机视觉领域的威信专家,这十年来专注于将手语识别技能运用于改进听障人群的沟通。疫情期间,她团队的手语识别系统的远程测试引发了一个关键猜想:手语识别系统的有效性可能更依赖于高下文语义理解,而非细致的多层标注,这一创造为实际运用开辟了新的可能性。
倪兰教授,拥有丰富的措辞学背景,二十年来专注于“手语措辞学”的研究。她磋商了措辞学对手语识别的深层意义,提出了在AI时期重新定义措辞学家角色和贡献的必要性。
苏剑波教授,从产品开拓视角出发,强调了手语识别技能面临的实际寻衅,尤其是样本采集的场景特定性与技能和产品通用性之间的平衡问题。
方昱春教授,同样作为一位CV学者,指脱手语识别的繁芜性远超人脸识别,并基于七年的研究履历,对手语数据的网络和管理提出了见地,指出面部隐私保护技能“DeID”,可能为手语数据的安全共享供应新的办理方案。
这场论坛不仅促进了技能互换,更是跨学科互助的典范,正如在圆桌结束后不雅观众所言:如果说交叉学科研究中最稀缺什么,那一定是敞愉快扉的对话。
以下是线上圆桌的全文(经编辑):
田英利:欢迎大家齐聚线上,也感谢雷峰网的组织。我相信大家和我一样,都对接下来手语识别谈论充满期待。在开始之前,请大家先容下自己。
倪兰:我是倪兰,来自上海大学文学院,措辞学及运用措辞学专业。我进入手语研究领域至今已经整整二十年。在上海大学,我们成立了中国手语及聋人研究中央,这个中央致力于手语的学术研究和聋人群体的社会调查,以此匆匆进社会对这个群体及其措辞的理解。
苏剑波:大家好!
我是苏剑波,来自上海交通大学和上海灵至科技有限公司。很高兴有这个机会与大家互换我在手语识别方面的研究。我的事情最初源于人机交互领域,最开始并非专门针对聋哑或残障人士。我的初衷是让机器人能够通过人类的下意识行为、表情和肢体措辞来识别意图和感情。在这个过程中,我逐渐意识得手语在表达情绪中的主要性,并开始专注于聋/哑人群的手语识别。
我目前的研究仍未完备区分健听人和听障人士的手势识别,我将连续在这个稠浊领域进行探索。希望今晚能与大家分享我的研究成果。
方昱春:我是方昱春,来自上海大学打算机工程与科学学院。自2017年起,我开始涉足手语研究,并深感荣幸能得到倪老师的支持和辅导开展交叉学科研究。手语作为一门自然措辞,远不止是符号系统那么大略,这深深吸引了我。我们有幸得到国家笔墨措辞委员会和上海市科学技能委员会科研经费的支持,在上海大学建立了专门的措辞采集实验室和推广基地,并开展了干系传授教化课程培植。期待未来能与大家进行更深入的互助。
田英利:我是田英利,自1998年在美国卡内基梅隆大学开始打仗人的表情识别研究。在那里,我与导师和团队共同创建了第一个微表情识别数据库,多年来被同领域广泛利用。在IBM事情三年后,我于2008年加入纽约城市大学,开始思考如何将打算机视觉研究运用于帮助有分外需求的人群,特殊是盲人和聋人。
手语作为聋人与外界互换的紧张办法,不仅包括手势,还涉及面部表情和身体动作。节制手语对聋人和健听人来说都不随意马虎,因此,如果能开拓出自动识别手语的技能,将极大地帮助聋人在就业和社交方面。
只管各国都在努力,但手语识别仍面临寻衅。我希望本日的论坛能让我们更深入地理解这一领域,为未来的研究和家当运用供应实际辅导。
田英利:第一个问题,关于手语识别领域的进展,只管浩瀚团队和个人已在这个方向上努力多年,但仍有许多值得磋商的空间。国内外有哪些学术和工业团队在这一领域取得了显著造诣?他们的研究成果是如何推动手语识别技能发展的?倪兰教授,请您先开始。
倪兰:作为从事措辞学研究的学者,我对手语识别领域的认识可能不足深入,但可以和大家分享一些我所理解的情形。
2003年当我们开始手语研究项目时,哈尔滨工业大学和中国科学院的自动化所、打算所等已在进行干系研究,早期侧重于穿着式设备而非打算机视觉(CV)。随着CV技能进步,这个领域发生了显著变革。
目前,海内生动的从事手语识别技能团队不仅包括哈工大和中科院的团队,还有中科大的周文罡教授团队已在该领域深耕十多年,北京联合大学的姚登峰教授,作为听障学者,他的研究具有独特视角,他也正在培植中国手语和汉语的平行语料库,让聋人学生进入团队采集手语数据,取得了不少成果。天津理工大学的聋人工学院多年前开始培植中国手语长篇语料数据集。我所在的上海大学自2017年景立手语研究中央起,就开始建立实验室,采集手语视频视频,借鉴了国外数据采集的履历,在较为纯净的背景下进行拍摄,便于打算机后期建模,只管在实验室采集,我们也只管即便利用各种办法以勾引更自然的手语表达,以便获取自然语料。
苏剑波:我对手语识别领域的研究,起于对机器人领域的人机交互理论和技能的关注,并非一开始就专注于聋人手语。我更关心的是如何让机器人能够通过对人的手势,乃至肢体行为的自动识别,来理解人类的感情和意图。
因此,我对干系团队的关注点可能与倪老师提到的有所不同。
在机器人学领域,国内外许多研究机构如中科院自动化所、哈工大,以及我所在的上海交通大学和曾做过访问研究的喷鼻香港中文大学等,都在进行干系研究,只管尚未形成完全体系。这些研究常日基于特定项目或家当化需求,利用打算机视觉技能和工具积累,在企业提出的运用需求上,开拓各种能帮助残障人士或聋哑人互换的技能或工具。
运用处景如政府机关职员或医院中年夜夫与聋哑病人的互换,所需的语料库相对有限,侧重于范例词汇的表达意图或含义,而非全面的措辞学研究。
但相似的是,我们的研究同样从视频入手,专注于语义和含义的识别,更侧重于通用语料库的运用。
方昱春:作为打算机视觉专业的学者,我踏入手语识别这一研究领域,最初是受得手语措辞学的启示,引发了我的研究激情亲切。
海内,中国科学技能大学手语识别团队在手语识别领域取得了显著造诣。国际上,德国亚琛工业大学的研究团队同样在这一领域享有盛誉。这两个团队凭借超过十年的研究积累,发布了多代数据集,推动了伶仃词识别、连续手语识别和手语翻译等关键问题的研究,并引领了全体领域的发展。
此外,中科院打算所、西安电子科技大学、清华大学、喷鼻香港科技大学、西湖大学,中科院自动化所、合肥工业大学、东北大学近年来也在手语识别领域持续揭橥了高水平成果。天津理工大学也建立了数据集。
特殊值得一提的是,中科院打算所陈益强研究员团队,在基于数据手套的手语理解领域取得了显著造诣,他的团队在聋校进行了传授教化运用和人机交互场景的探索。在2017年我们正准备采取打算机视觉技能进行手语识别时,陈益强教授鼓励我们考试测验,只管当时成功的可能性并不愿定。毕竟,当时“人脸识别”取得了限定范围运用,“手语识别”的难度无疑更高。
2023年,参与手语识别研究的学校和企业数量进一步增加。
国内外企业如小米、华为、腾讯,以及微软、谷歌等也都积极参与这一领域的研究。很多企业关注开拓具备手语能力的数字人,以提升人机交互体验。
手语识别领域近年来的快速发展,新的数据集和干系竞赛的频繁发布预示着这一领域的未来潜力。
田英利:我接着谈谈我在美国做手语识别的履历,以及对国际手语识别领域的不雅观察。
比较较而言,欧洲比美国更早关注残障人士研究,但美国很快跟上了步伐,我很高兴看到中国许多单位也开始这一领域的研究。这背后最大的推动力是人工智能和机器学习的进步,以及打算机算力的提升,使得原来不可能的研究变得可行。
正如刚才倪教授所说,早期手语识别研究,包括与措辞干系的研究,一开始是依赖于穿着手套等设备来捕捉手指运动,实现基本词汇的识别。但现在,随着技能的发展,尤其是微软为游戏设计的RGBD摄像头的运用,许多学校开始利用RGBD技能进行捕捉。这不仅供应了视频信息,还增加了深度信息,极大地提高了打算机视觉算法的精度。
目前,手语识别的紧张瓶颈是缺少通用的大型数据库。只管自然措辞学习领域数据库技能已有显著进展,但手语识别仍面临寻衅。美国、德国,希腊、土耳其等国也在进行数据采集和识别事情。
我们的团队自2004年起研究手语识别,结合打算机视觉技能和措辞学研究,希望将人的表情、手势和身体动作结合起来进行识别,知足聋人的真实需求。
这个过程中,我们与很多高校建立起互助,比如罗切斯特理工大学(RIT),他们拥有规模弘大的聋人学院,超过1000名聋人学生;以及纽约城市大学亨特学院的Elaine Gale教授,她是一位失落聪者,精通唇语,并在手语教诲方面有着丰富的履历。
以是我们团队的事情流程相称于一条龙做事:RIT卖力数据采集和标注,我们卖力开拓系统算法,然后Gale教授的团队在他的教室上与学生一起验证我们的系统,并供应反馈,以便我们进一步改进。
我们意识得手语是一种完全的措辞,不仅限于有限的词汇。我们的目标是研究手语的语法构造,而非单一手势。目前我们打造出一条针对美国手语的语法实时识别系统,能自动反馈学生手语的语法精确性,供应快速反馈。
我期望海内能建立跨学科的、成体系的研究环境,不仅仅是措辞学者或打算机学院的独立研究,而是能够整合不同学科、聚拢各种人才。我相信,随着研究的深入,这一领域将会取得更大的进步。
田英利:第二个问题:如何从零开始构建并支配一套高效的手语识别系统,在这一过程中我们面临了哪些技能难题?大家是如何战胜这些难题的?还有哪些问题尚未办理?倪老师,请先开始。
倪兰:手语识别系统构建不是我的专业,我可以从措辞学的角度供应一些参考。在我看来,手语识别的过程类似于人类学习一门新措辞的过程,我们须要理解词汇的意义、语法构造,终极达到理解全体措辞系统的目的。从某种意义上说,手语识别便是将人类的措辞学习履历传授给机器的过程。
在构建手语识别系统时,我们须要办理的关键问题是如何匹配形式和意义。刚才田老师提到的方法,彷佛是将全体句子视为一个构造来处理,而不是单独识别每个词。这种方法彷佛更侧重于措辞单位的整体性,而不是单个词的识别。
在海内,许多团队可能是先从识别伶仃的词汇开始,然后逐步扩展到全体句子或段落的识别。但田老师提到的方法是不哀求详细词的精确识别,而是关注全体句子的意义匹配。这实际上涉及到措辞学中的“语块理论”,即“以意义为单位进行措辞剖析”。
我很想知道,田老师的方法是否须要人工标注句子的意义,以及在形式和意义的匹配过程中,如何界定措辞单位,以及如何进行标注。这些可能是我们在构建手语识别系统时须要深入谈论的问题。
田英利:倪老师,您提到的问题非常关键。确实,手语的连续性和句子间的切分对付理解全体表达非常主要。机器学习在切分方面可能与传统措辞学的方法有所不同。在我们的研究中,虽然我们没有对每个词进行识别,但我们确实对一些与语法干系的关键词进行了识别,比如表示韶光的“昨天”、“前天”以及“来日诰日”、“后天”,这些都是通过手势、位置和表情来表达的语法元素。
我认为,随着对手语每个词识别精度的提高,我们将能够更好地理解全体句子。就像我们在说话时,纵然每个词都听得懂,但如果没有高下文的理解,我们也无法完备把握说话者的意图。同样,在手语中,高下文的理解也非常关键。同一个手势,在不同的高下文中可能表达完备不同的意义。
总的来说,我认为,对手语中单个词的理解是必要的一步,但同时,我们也须要关注高下文和整体句子的理解。这样才能更全面地把握手语的含义。再次感谢倪老师您的宝贵见地,它们对我们的研究事情具有主要的启示意义。
倪兰:田老师,您刚才提到了措辞理解,包括语法中的韶光词和疑问词等。您在处理这些问题时,会考虑句子的语序吗?比如,韶光词在句子中的位置,我们是将其放在句首、句中还是句尾?例如在汉语中,我们可能会说“我昨天去了哪里”,这里的“昨天”是放在中间的。您在研究中会考虑这种语法构造吗?
田英利:是的,我们会考虑这些成分。我们不仅关注词的位置,还关注它们的韶光成分。
例如,我们不能在说出“倪老师,你用饭了吗?”这个问题之后,过了良久才做出讯问的表情(比如眉毛上挑),这样的话,表情就与问题脱节了。因此,我们不仅要考虑表情发生的韶光,还要考虑它与关键词、问题句子的相对韶光关系。这样的考虑才能授予其语法意义。在美国手语和中国手语中,这些都是关键问题。
苏剑波:这个问题确实是手语识别领域中非常核心的技能难题。我很难说我们已经战胜了哪些寻衅,或者更准确地说,我认为在手语识别方面,我们仍旧面临着大多数问题尚未办理的现实。
正如方老师刚才所指出的,手语识别是一个比人脸识别要繁芜得多的领域。确实如此,十多年前,我有一个硕士研究生专注于人脸识别研究,他取得了非常好的成果,并揭橥了精良的论文。毕业后,他去了喷鼻香港中文大学攻读博士学位,那里的导师希望他能将他在人脸识别研究中的履历和成果运用得手语识别上。他寻思熟虑了好几个月,终极还是放弃了,由于他理解得手语识别的难度,以是没有连续这个方向的研究。
手语识别领域的哀求和对不同场景的适应能力,以及对措辞语料库的积累,都使得它在模式识别领域中独树一帜。只管我也是从打算机视觉和模式识别技能起步的,自然而然地会探求能够代表某一类模式的特色凑集,这是我们这些受过模式识别专业演习的人的本能反应。
但这种传统模式识别领域内有效的方法,在手语识别领域可能就不那么适用了。手语的多样性和变革性——场景、人物、职业的不同,乃至不同地区和方言的差异——使得手语的特色选择和定位变得非常困难,远远超出了人脸识别等其他模式识别任务的繁芜性。手语识别不仅包括静态手势的识别,还包括动态手势的识别,这就像笔墨断句一样,不同的断句办法可能导致完备不同的措辞含义。手势的这种“断句”差异可能会导致真实含义的巨大变革,乃至完备相反的意思。更不用说不同国家和方言的差别了。
在实际研究过程中,我们可能都会碰着类似的经历。如果我们基于公开的标准数据库集进行手语研究,相对来说进展会比较随意马虎。但如果我们基于真实人物采集的数据库进行研究,难度就会大大增加,由于手语和手势的特色提取也会变得非常个性化!
因此,如何将这些研究成果转化为广泛接管的手势或手语表达形式,是手语研究中极具寻衅性的问题。
在模式识别领域,无论是语音识别、人脸识别还是指纹识别,都有专门针对这些领域的工具和技能。然而,针对手语识别,我们彷佛更多地是将其他领域的成功方法运用到这里,而没有针对手语识别开拓出专门的技能手段和算法。
这反响了我们在这个领域开拓特定技能难度的问题,或者说是通用性的难以实现。我们现在所做的事情,大多是基于模式识别领域内公认的技能,如卷积神经网络和各种滤波手段。然而,很难期望一个并非为特定领域中特定环境下办理特定问题而设计的工具,能够将该领域的问题办理到极致。
我们提出了所谓的“特色完备性”观点,针对常用的几百个手势,无论背景、职业、运用处景和文化背景如何不同,人们在表达同一语义时手势之间的相似性,及不同语义时的手势之间的差别,都可以通过一个足够完备的特色凑集给予描述;同时,为了减少识别的打算量又期望特色的整体规模要足够小,即特色之间的正交性。这是我们把在其他模式识别领域的一些成功思想,拓展得手语研究。
通过上海灵至科技有限公司和上海追求人工智能科技有限公司两家公司的市场化互助,我们试图将模式识别的通用技能运用于帮助残障人士领域,他们拥有市场资源,能够得到分外行业如多地聋哑学校的支持,从而采集特定的样本。
但是,我们有时也会质疑,在特定场景下采集的样本对付样本的拓展性和通用性究竟有多大的代价?这很难说清楚。这些都是我们在手语研究方面的一些困惑和难点。我提出的问题多于办理方案,接下来叨教方老师,您那边有什么想法吗?
方昱春:我先回答问题的第一部分,关于如何构建和支配手语识别系统。
我的研究小组还没有开拓出真正能够运用于实际场景的手语识别系统。但是,在不雅观看了田老师的专访后,我深刻地理解了为什么田老师的事情,倪老师会认为特殊有代价。由于田老师她们选择的问题——将打算机视觉方法运用于帮助学习手语的人,以便更准确地表达语法——实际上是手语措辞学与打算机视觉模式识别交叉学科中的一个非常精彩的问题。
选择这样的问题进行研究,该当是非常有聪慧,是交叉学科研究和运用非常好的例子。它不仅具有很高的实用代价,而且从措辞学的角度来看,也具有很高的学术代价。这对我们来说是一个非常好的启迪。
手语方面,最大的困难在于数据标注。与自然措辞比较,我们目前拥有的手语数据集标注量非常少。自然措辞可以进行字、词、语法、语义、语用的繁芜标注,有大量的措辞学家可以帮助完成这些事情。然而,要得到如此详尽的手语标注数据,难度就非常大了。这与手语本身的繁芜性有关,它涉及到上半身多个部位的折衷运动,并且具有很强的措辞模式,这本身便是一个寻衅。
要像自然措辞理解那样去做手语理解,难度是非常高的。正如苏老师刚才总结的一些经典问题,比如繁芜性光照、背景繁芜性、姿态繁芜性等,这些都是我们在打算机视觉问题中须要面对的寻衅。这些问题可能只有一部分可以通过打算方法办理,但我认为选择一个好的运用处景也很主要。例如,田老师语法纠正的运用便是一个实例。如果我们的运用处景是限定的,那么我们现在已经实现的一些视觉方法就可能落地运用。
至于其他的难点,可能要等到前面提到的数据采集和标注问题办理后,以及一个好的运用处景的选择,我们才能逐步理解手语,进而促进我们理解人类的措辞智能和认知智能。在这个根本上,可能会逐渐发展出更加普遍化的手语识别技能。
倪兰:在谈论手语识别的过程中,我们不得不提到措辞学的分类。
我们知道,目前的许多措辞学研究,包括像ChatGPT这样的模型,紧张处理的是文本,也便是我们所说的书面语。对付书面语的标注,我们有很多数据库,无论是当代汉语还是古代汉语,都有相应的标注资源。然而,当我们转向口语,也便是有声措辞时,虽然现在汉语口语的数据库并不多。但至少在语音识别领域,我们已经有一定的标注根本,语音标注可能紧张关注元音和辅音等方面。
但在手语标注方面,我很想理解你们在打算机识别或合成领域紧张须要什么类型的标注。我们在利用一些软件进行措辞学标注时,可以实现多层标注,最多可以达到50层乃至60层。但这样的标注对付打算机的手语识别有用吗?
我曾看过一些用于打榜的标注,比如西班牙手语的标注,紧张是对个别词进行切分和语义标注,而不是完全的词汇切分。对付与措辞学家的互助来说,你们最须要的标注是哪一种?你们须要标注到多少层,才能办理识别一个句子或一段话的问题?我对这个问题非常好奇。
田英利:对付视觉领域的手语识别来说,我们最关心的是语义理解。也便是说,当我们看到一全体手语句子时,我们想要知道它在表达什么意思。至于词的层面,理解伶仃词的语义对我们来说已经足够了,并不须要像措辞学研究那样进行50层细节的标注。
我们的紧张运用目标是实现正常的互换,这是紧张的一步。但是仅从视觉角度来办理这个问题基本上是不现实的,我们必须与措辞学家、手语利用者,包括聋人社区互助,共同办理问题。
接下来,我们要考虑的是如何将这个繁芜的问题简化。就像自然措辞处理一样,纵然是像ChatGPT这样的大规模模型,最初的研究也是集中在“新闻宣布”这样比较官方、正式的内容上。只有在这些根本事情做好之后,我们才能逐步扩展到不同的口语或其他领域。如果第一步做不好,后续的事情基本上就无法进行。
倪兰:那么回到这个问题上来,便是说在构建系统的过程中,我们须要对标注的规范达成同等的标准,对吗?这是我们须要明确的。
田英利:确实如此,拿我们团队来说,从一开始就明确了我们的研究方向。无论是系统开拓还是视频手语捕捉,我们都事先谈论并决定了利用哪些传感器,以及捕捉的详细哀求,比如是捕捉全体句子还是多个句子。我们终极选择了多个句子的方法,这样一来,我们就涉及到了不同句子之间以及不同词之间的分割问题。
另一个寻衅是,正如我们在口语中不是每个词都故意义一样,手语中的手势也不全是故意义的。有些手势具故意义,而有些则没有。在实验室环境中,人们可能会刻意减少这些无意义的手势,但在实际运用中,人们会自然地利用各种无意义的连接手势。因此,如何准确地进行分割变得尤为主要。
我尤其想说一个插曲。当我们基本上开拓出这个别系,并准备在教室上进行测试时,新冠疫情爆发了,学生们无法到校上课。面对这种情形,我们不得不让学生在家中利用手机完胜利课,并将视频发给我们进行系统测试。由于原来利用的是RGBD传感器,现在D(深度信息)的部分没有了,我们创造学生的视频中手的位置、远近不一,有时手势乃至超出了画面。
这对系统的磨练非常大。在这种情形下,纵然我们不能识别每一个词,我们也须要能够理解整句话的意义。这就像我们在网络通话中,纵然偶尔丢失了几个词,我们仍旧能够理解全体对话或段落的意思。因此,我认为在实际运用中,我们不一定须要非常细致的多层标注,但我们须要能够识别全体句子或段落的含义。如果我们能够做到这一点,那么这个别系就可以投入利用了。
苏剑波:我来补充一点。在实际运用中,我们面临一个寻衅,那便是基于标准手语库演习出的识别系统如何应对真实用户,比如聋人在实际利用中的手势并不总是那么标准?
从模式识别的角度来看,这就像是你网络了大量的语料库,但在实际运用中,如何将系统扩展到详细用户的样本上,你的系统可扩展性到底能达到何种程度?实际上,这非常制约全体系统的实用性。
田英利:这确实是一个问题。就像ChatGPT一样,只管它现在非常强大,但它也不能供应任何问题的答案。特殊是对付帮助残障人士的系统,一定要有个性化定制的那一步。也便是说,基本系统建成后,针对每个人的详细运用,必须有一个调度过程。这是必不可少的。否则,对付个人用户来说,运用过程中会存在断层。
苏剑波:确实,我们须要一个标准系统作为根本,然后针对特定用户进行自我学习或调度的过程,这样才能逐渐提高系统对该特定用户的准确度。
田英利:是的,无论如何,还有另一个问题是关于用户界面的。无论你的技能有多好,如果你的界面不友好,用户就不会去利用它。
苏剑波:对,以是这个磨合过程每每会让用户失落去耐心。
田英利:这便是为什么我们在最开始的时候就要把聋人朋友纳入到全体系统的开拓中来。这些朋友对新技能充满激情亲切,他们也乐意帮助和贡献。然后再进行推广。如果一个不成熟的产品在推广时让用户决定不再利用,那么往后想要让他们重新利用就会变得非常困难。
倪兰:我理解苏老师的困惑所在。可能由于美国手语的发展韶光比中国手语要长,但在中国手语中,我们确实面临着苏老师提到的各种“地方变体”的问题。
对措辞学家来说,措辞的多样性是措辞成熟度的表现,我们非常乐于接管。但手语有自身的繁芜性,有方言的问题,还有群体内部的异质性(由于不同的教诲背景、家庭情形、听损情形等,他们的手语利用情形千差万别)。
不同于普通话,我们可能只关注发音是否标准。聋人群体中,手语的好坏差异巨大。纵然在公认的手语较好的聋人中,也存在差异。很多聋人并没有接管过系统的手语教诲,他们大多靠自学。
手语的标准并没有像有声措辞那样有一个明确的评判标准。通用手语目前只是一些词汇,而这些词汇也是从各地手语中采集来的,未来还须要进一步完善。
实际上,我们比较过通用手语常用词表和之前手语词典的词汇,创造词汇差异并没有我们想象的那么大。比如通用手语中的“安静”是一个复合词,即两个手势,但上海聋人可能只用一个手势,这种情形实际上并不影响核心意义的传达。
我特殊关注田老师所做的事情,她不仅仅关注伶仃词的识别,而是关注全体句子意思的理解,这对我们有很大的启示性。由于手语的方向和位置变革很大(例如我看到小孩学手语时在头的位置打出“牛奶”的手语,其他人也能看懂),如果我们能找到一些工具专门提取手语中有代价的特色,可能会对手语识别技能非常有帮助。
田英利:我认为您补充得非常好。实际上,在运用过程中,纵然我们无法准确识别单个词,我们仍旧可以通过视觉方法来理解全体句子的意思。
确实,要在现有技能水平下完备准确地通过视觉方法识别出所故意思有些困难。但苏老师团队的公司在针对特定场景研发技能,这非常能帮助到聋人。
例如,我们可以开拓一些特定的产品,比如一个小软件,专门用于医疗场景中的对话,包含与病痛或年夜夫沟通的词汇。这样,当他们去看年夜夫时,只须要利用有限的词汇,比如三百到五百个,乃至几个手势,比如“肚子疼”、“头疼”,就能表达他们的不适。这样简化繁芜问题,纵然不能完备办理问题,也能在实际生活中为残障人士供应便利。
苏剑波:是的,这是一个很好的方法。我们在实际操作中,可以先让系统预测病人可能的意思,然后再确认,这样的交互可能更实用,而不是追求一次性识别出完全的意思。
田英利:在开拓系统时,一定要将聋人纳入系统的一部分。由于他们是系统的直接用户,以是让他们参与验证可以大大提高系统的准确率。当系统明确知道他们的意思后,可以将其翻译给年夜夫。纵然年夜夫没有学过手语,通过语音或笔墨的翻译,就能理解他们的意思。
苏剑波:是的,对付福利院、养老院或专门用于照顾残障人士的机器人,它们可以通过人脸识别来识别出某个人习气利用的手势。经由一段韶光的自我学习后,它们就能快速准确地识别出特定聋人的手语。但在许多运用处景中,机器人没有这样的机会进行学习,以是这一步就无法实现。如果能让机器人长期陪伴一个聋人,那么这方面的压力就会减少很多。这便是我们的方向。
田英利:第三个问题,ChatGPT、Sora等大型措辞模型在自然措辞处理(NLP)领域取得了显著造诣。这些模型背后的设计理念和技能路径,对手语识别研究有何启迪?方老师,请您先分享。
方昱春:我认为ChatGPT作为大模型的范例例子,其成功的实用化范例很大程度上依赖于海量数据的支持。那么,这对手语识别有何关联呢?
我们认为,大型模型实际上是在大量文本语料长进修语义之间的关联性。而手语识别处理的是视觉办法传达的语义。人类在表达社会生活时,在语义空间中仍有许多共通之处。因此,我们认为大型模型的成功履历可以借鉴,特殊是在构建语义空间方面,可能会加速我们对手语理解的研究。
这目前还只是一个猜想,我们尚未真正付诸实践。
此外,像Sora这样的文生视比年夜模型在多模态信息处理方面展现出了强大的能力。手语本身也是一种多模态形式,其形式是视觉旗子暗记,而内容传达的是措辞信息。因此,我们也认为Sora这种多模态的事情办法可以给我们供应很好的启迪。
紧张在这两个方面——语义和多模态——我们可以借鉴和利用大模型,对手语识别技能供应支持。
倪兰:ChatGPT在2023年景为了最热门的话题,从年初到年末都备受关注。在我们措辞学界,ChatGPT的涌现引起了巨大的轰动。以前我们认为理解措辞须要依赖措辞学家来供应有代价的信息,然而ChatGPT和Sora等模型彷佛表明,只要有数据就足够了。
许多学者也在磋商:人工智能时期,措辞学家能做些什么?
只管在有声措辞识别,尤其是文本识别方面,人们可能认为措辞学家的浸染不再主要,但我认为在初期,措辞学家供应的一些关于措辞的主要信息是有代价的,包括语法构造等。
构造主义对我们人文领域产生了深远影响,我们知道语音、句子和词汇都是可以切分的,这种构造化的认识对付本日的大措辞模型可能已经被遗忘,但它们最初的事情是至关主要的。
关于通用性,我们也在思考是否能够在手语领域找到一些最核心的信息,比如它的构造。只管目前缺少大规模的数据集,但大概我们可以找到一些关键的手语信息,这可能对手语识别有一定的推动浸染。在与方老师和其他老师的沟通中,我们创造,许多老师认为手语是一个无法构造化的混沌整体,但一旦进行了却构化剖析,就可以反复运用这些规律,这便是构造的力量。
因此,我们可以从ChatGPT中得到启迪,思考在手语识别中哪些核心架构是关键的。
我记得在早期的GPT-3.0版本中,有些句子的搭配觉得有问题,但经由不断的演习后,它就能够扩展。我们是否也能在手语识别中找到一些关键的构造?比如手语动词的方向性,如果我们知道这一点,那么我们就不会将“我爱你”和“你爱我”识别成两个独立的手势,而是能够理解方向性动词的开始和结束位置是可以标记成句子的主、宾语。还有手指的朝向,它也可以表示宾语,这些都是构造化的特色。我们在剖析手形时创造,中国手语中表示”钱“的时候,很多人认为必须拇、食指要捏成圆形。但实际上,在实际利用中并不会完备捏圆,这时不捏圆和捏圆的手形在意义上没有差别。当我们在语估中创造这两种手形实际上不差异意义时,这是否可以提高识别的准确性?
以是,我认为一方面ChatGPT见告我们须要大量数据的积累,另一方面也提示我们有些核心信息须要早期放入到标注中,或者在构建手语识别系统时,可以供应给打算机一些知识库信息。
正如大家所谈论的,实际运用中,每次向ChatGPT提问得到的回答都会有所不同,我们可以在缺少数据的情形下通过关键信息让系统不断自我学习,自我运用。
当我们缺少足够的措辞学者和标注职员时,未来实现自动标注可能是办理大数据问题的路子,由于系统可以自适应地学习。
苏剑波:这个问题我已经思考了良久。包括ChatGPT和Sora这样的工具,从技能发展的角度来看,它们都是非常清晰的人工智能工具。
ChatGPT紧张是基于文本的人工智能工具,而Sora则是基于图像和视频的人工智能工具。因此,从手语识别的角度来看,我个人觉得Sora对手语识别的帮助可能要超过ChatGPT。
我们一贯在思考的问题是,传统上我们总是须要从图像或视频中提取各种特色,无论是几何特色还是统计特色,并评价这些特色能否表达图像所代表的语义含义。从这个角度来看,无论是目标识别、运动剖析、颜色识别,还是其他类似的任务,终极都要拓展到语义层面。
但我一贯思考的是,比如我们不雅观看一段视频或电影时,我们关注的是视频中的人物、情节和行为,我们可以从头到尾理解视频的内容和意义,而不会过分关注打算机提取的图像或视频特色。那么我们在做手语识别时,真的须要通过提取视频中的特色来识别手语的语义吗?
当然,打算机视觉的传统理论都是这样,选用什么样的特色表达关注的语义决定了基于打算的人工智能系统的性能,因此而考虑特色选择和提取的鲁棒性、速率和准确性。
Sora给我的冲击是,它是通过视频的办法来理解内容,但它的机理是什么?我不清楚。
它是通过传统意义上的打算机视觉特色提取来完成视频理解,还是通过其他手段?
这引发了我们对手语知识表达最有效的手段是什么的思考,包括语义的拓展和新的感情、语义天生手段是什么?
如何让机器人能够天生手语来表达自己的意思,或者理解残障人士的意思,并通过手语阐明给他们听?
在这个过程中,可能真的须要理解人类的思考或意图,这种打算模型是什么?
是否一定要基于我们在打算机视觉中学到的统计或几何特色?
我不清楚,但我体会到了ChatGPT和Sora给我的这种反向刺激。
不雅观察人与人之间的互换时,包括康健听人和聋哑人的互换,人们是如何通过各种手势来理解他人的感情或残障人士的手势含义的。
反过来说,打算机的打算能力远远超过人类,它是否一定要模拟人类不一定是打算办法的理解他人或残障人士手势的过程?
在这个过程中,它该当利用什么样的特色和模型来表达?这些模型或特色未必是人类须要或利用的。
我们以前总是说人工智能首先要学习人类是如何得到智能的,或者智能是如何进化的。我现在疑惑,打算机在发展人工智能或打算智能时,是否一定要走人类智能天生、发展和进化的同一条路?
田英利:回答您这个问题确实颇具寻衅性,由于关于人脑如何产生智能的问题,目前科学界还没有确切的结论。
众所周知,任何关于人类智能进展的研究,都会对打算机人工智能的发展产生重大影响。然而,即便是小孩子的思维也不是二进制的,而打算机只能通过0和1的二进制来进走运算。打算机必须依赖其强大的打算能力来仿照,乃至达到小学生水平的智能。
最近,得益于强大的打算力和海量数据,ChatGPT彷佛实现了一个飞跃。但我们也必须承认,只管ChatGPT取得了巨大进步,它供应的想法或答案并不总是准确的。有时我们开玩笑说,ChatGPT常常不苟言笑地胡说八道,看似条理分明,实则可能是缺点的。
为什么会出错?由于它缺少判断能力,只能依据以往的大数据来得出结论。
Sora也是如此,它可以基于几个关键词天生逼真的视频,但这些视频真的符合我们最初的预期吗?并不一定。因此,我认为利用大数据进行手语识别仍旧有一段路要走。
在我们的研究团队中,我们在等待网络数据库和标注数据的同时,采纳了一种方法:我们直接从YouTube上获取那些已经有手语翻译的演讲视频,将演讲内容作为标注,利用视频中的小框内的手语进行识别,得到了不错的结果。但这些都是比较官方的内容,涵盖的范围相对有限。其余,视频中手语的质量也非常有限。
不过,我认为将来有了强大的打算力,可以将这类数据作为一种可行的备选大数据资源,利用现在的自主学习或无需标注的学习技能,自动剔除不准确的部分,提取最关键的语义信息。
这样,我们就能理解手语者在表达什么,这已经足够了。我们不须要精确地识别每一个词。这是我们自己的一种考试测验和探索。
苏剑波:目前我们通过这种方法实现目标是完备可行的。但从技能的完备性角度来看,我个人并不特殊喜好所谓的标注过程,由于任何标注都可能带有标注者个人的主不雅观意图。
正如在人工智能领域,比如早期让打算机学习下围棋,最初是通过学习人类的棋谱来进行的。但后来创造打算机无法判断人类高手棋谱中的错招和漏招,因此后来改变了策略,让打算机自我对弈。
现在,打算机只知道围棋规则是由人类设定的,但它通过自我进化来提高下棋技能,而不是通过学习人类的棋谱来达成目标。打算机围棋已经通过这种办法达到了远超人类的水平,但它并非是通过学习人类智能的办法实现的。
这个案例对我来说是一个极具启示性的思路,它表明机器智能的进化和提升未必需要通过学习人类智能来实现。这是我的不雅观点。
田英利:然而,在最初阶段,我们仍旧须要人类的标注,正如您提到的围棋例子,它有一套完全的规则。
对付手语和措辞,尤其是受到地域限定的情形下,规则越明确,打算机学习的效果就越好。
但当规则不明确时,我们该怎么办?最初的时候,一定要有人来教它,见告我们如何进行。
方昱春:算法该当还是依赖了大量的棋谱数据,展现了影象的巨大上风。
倪兰:苏老师,这个问题在措辞学上有一个阐明。
根据乔姆斯基(当代著名的措辞学家和思想家)的理论,所有人类都有措辞的潜质和本能,但如果把一个孩子扔到森林里,不让他打仗人类,他实在很难学习到措辞,仍旧须要引发,须要父母不断地为他供应措辞数据的刺激和纠错机制。
我们教孩子措辞时,并不是只教他“a是b”这样的句型,他就能照做。他会将规则用到极致,创造出我们从未教过的新句子。这实在和机器学习是一样的,我们见告它基本规则,然后它产生新的东西。当然,人类的措辞机制可能更繁芜。
以是,我们目前对手语的布局理解还不足。很多时候,纵然我自己的手势并不标准,但有时候一个表情就能让聋人急速理解我想说什么。
我认为,我们的视觉捕捉到的信息比我们通过有声措辞表达的信息要多得多。如果我们对手势和身势语有更深入的理解,一定能帮助我们更好地理解他人的意图和言语含义。手语虽然源自身势语,但它已经发展出了一个相对完全的体系。
我们首先对身势语理解不敷,然后对发展出的手语的语法规则也没有完备节制,这就带来了识别的繁芜性。聋人在表达时,同时也会利用身势语。我们可以做一个实验,不雅观察视频中的人边说话边打手势,当把声音关掉时,你完备不知道手势代表的含义。聋人能将他们的身势语和手语领悟在起来进行表达。因此在手语识别时,我们如果不能区分身势语和手语,就会以为繁芜,没有规则。
手语是一种措辞符号系统,它的表达有一定的限定性和语音规则。但由于它太繁芜,领悟了很多多模态要素,包括表情体态等,而我们对表情的认识和理解还远远不足,这便是为什么手语识别起来非常很困难。
田英利:我以为苏老师提出的问题非常有趣,技能上如何办理?
倪老师谈到的也确实如此,有时候我们的措辞只占互换的30%,大部分时候,尤其是在家庭中,有时乃至不须要说话,一个眼神就足以传达意图。人的互换有多个渠道,我认为不须要准确地识别出每一个字、每一个细节才能进行运用。
以是,我们现在自然地过渡到了下一个谈论议题,即只管技能困难,包括特色提取的难度,但我们如何战胜这些困难,在现有的技能条件下尽可能地帮助听障人士的生活?
问题四:从技能研究走向实际运用,我们可能会碰着哪些现实困难?如何将手语识别技能更好地融入到听障人士的日常生活中?
方昱春:从打算机运用系统的角度来看,难点集中在“接口设计”上。
许多信息类产品,如果对利用者的约束太多,例如人脸识别时须要用户合营特定的姿势、光照条件和设备,那么用户在受限的环境中利用,体验就会不佳,终极这项技能也可能被抛弃。为了让聋人能更好地利用我们的技能,该当供应一种更自然、更无感的体验,让他们能方便地在更多公开场合中感知措辞的表达。因此,我认为一个适当的接口是走向实际运用中的一个范例问题。
还有其他一些问题我们在前面的谈论中已经涉及过,比如手语的变革性很大,我们如何知足用户的个性化需求?这些都是须要办理的问题。
其余,我们也多次提得手语识别的难度很高,这会影响我们开拓的技能的精度,这些情形都是存在的,这些成分都会影响到全体技能的实际落地和推广。
倪兰:去年我和方老师互助辅导了一个关于应急手语的学生科创项目。大家普遍认为聋人群体在日常生活中会频繁利用手语,但实际上,聋人群体是多元化的,也包括那些不会打手语的听障人士,他们的手语闇练程度和教诲水平也各不相同。他们对字幕和文本的理解能力也不尽相同,因此我们须要确定哪些场景最须要手语识别技能。
有时,我们在新闻中看到的手语翻译可能并不总是被聋人理解,但它代表了一种对措辞权柄的尊重。
如果手语识别技能能够发展到聋人在日常生活中都能方便利用,就像拿脱手机发短信那样大略,那将是一个巨大的进步。之前vivo曾推出过手语识别和合成技能,聋人朋友考试测验利用后创造,输入一句汉语可以逐字打脱手势,但如果要识别一个聋人打的手语句子,目前的技能水平还做不到。
在需求剖析方面,我们可能须要深入理解聋人最急迫的需求场景,比如医疗领域,中老年听障人士的需求尤其大,他们可能更依赖手语。与年轻人不同,他们可能不太熟习语音转笔墨的电子设备。在这种情形下,我们须要考虑手语数据该当采集自哪些人群,以及把医疗术语翻译成手语的寻衅,由于很多术语可能在手语中并不存在,直接翻译反而会造成误解。
因此,我认为可能须要将“语音识别”与“手语识别”结合起来利用,并且要考虑数据库采集工具的多样性。
另一个场景是教诲领域,聋人也须要学习手语。在学习手语的过程中,供应标准化和规则化的内容是很主要的。
例如,郑州工程技能学院等院校在招收全国各地聋人学生时,会先培训他们共同利用一套手语,然后在四年的学习中不断练习和利用。
在教诲领域,我们须要考虑如何为聋人供应课程支持。目前,招收聋人的学校大多利用字幕机,但我们须要更深入理解聋人在哪些场合须要这些产品,并考虑在窗口、银行等公共做事场所的运用。我认为手语识别产品可能须要结合多元化的模式,如果只依赖单一的手语识别,可能会在某些场合受到限定,由于情形特殊繁芜,尤其是在中国这样地域广阔的国家。手语有很多地域分支,统一的标准可能无法知足所有聋人的需求。
苏剑波:我这边的事情紧张是关于机器识别聋人的手势,并将其翻译给健听人,以便在各种环境中,如做事窗口、教诲场所或医疗场所,促进聋人与健听人之间的互换。
但我一贯不太确定,该当利用什么样的工具来实现这一点。
比如,是否让健听人手持iPad,实时拍摄聋人的手势,然后屏幕上就能显示出他们所说的内容?
这种办法有助于促进双方的互换。然而,在实际运用中,聋人每每不愿意被拍摄。即便阐明说拍摄的目的是为了翻译他们的手势,他们常日也不愿意接管。除非在迫不得已的情形下,比如在政府部门或医院须要办事时,他们才会勉强接管这种办法的翻译。但在正常情形下,比如在马路上互换,如果用设备拍摄他们,他们肯定会反感。
我一贯在思考,这种技能究竟该当如何转化为实际运用?乃至连最基本的工具利用办法都没搞清楚。我们常日习气于利用手机,比如不认识的花,就用百度拍一下识别,这是我们日常生活中常用的工具。
但与聋人互换时,我们不能总是带着iPad,或者让他们在iPad显示下进行手势,然后翻译出来。我不知道该如何应对这种情形。
倪老师提到,在特定领域,如医疗和教诲,可能不得不该用某些工具来帮助理解他们的意图。但如果要设计一个适宜聋人利用的产品,或者一个可以随身携带的设备,让他们在须要与正凡人互换时,能够实时显示他们的意图,那将是非常有益的。
但这样的产品是什么呢?我还不太清楚。就像手机那样,但详细该如何操作呢?是通过拍摄手势,然后在手机屏幕上直接表达他们的意图,还是通过语音说出来?我还在探索这方面的办理方案。
田英利:针对苏老师的问题,我认为我们的谈论非常有益。从技能到产品的落地,确实还有许多困难须要战胜,路还很长。
关于该当开拓什么样的产品,近年来VR和AR技能被频繁提及。我们须要一种自然的产品,而不是让人们觉得像是扛着摄像机或iPad来录制。
想象一下,如果聋人可以戴上一种眼镜,这种眼镜内置有针孔摄像头,能够捕捉他们自己的手势,并将这些手势直接翻译针言音。
当我知道他们的意思后,我就可以回答他们。这种眼镜当然也会有麦克风,能够捕捉我的语音,这时就不须要手语,而是直接将我的语音转化成笔墨,显示在他们的AR眼镜上。
这样一来,我们就能理解苏老师所讲的情形,即不仅仅是通过摄像头来识别手语,而是将语音、笔墨和部分肢体措辞这些多渠道信息综合起来,帮助我们进行沟通互换。我们不须要成为他们的“灵魂伴侣”,只须要大致理解他们的意图,这对他们的生活就已经是很大的帮助了。
此外,苏老师提到了一个非常主要的问题,即关于拍摄的隐私问题。在摄像头无处不在的本日,我们如何在保护隐私和技能发展之间找到平衡?
问题五:在开拓和支配手语识别系统时,如何确保听障人士的隐私得到保护?我们如何在技能创新与伦理道德之间找到平衡?
倪兰:这确实是我们在构建数据库时一贯面临的困扰。起初,我并没有强烈的隐私保护或知识产权意识,是方老师向我强调了在打算机领域中数据保护的主要性,我才开始重视这个问题。
我们采集了大量的数据,但在采集过程中,我们都会与聋人被调查者签订协议,确保他们的隐私受到保护。因此,在数据的公开利用上,我们非常谨慎,会明确讯问数据的利用目的。
有时,一些企业会委托进行数据采集事情,我们也会非常小心,担心数据被用于其他目的。
文本数据的情形不同,由于ChatGPT所利用的大部分文本数据都是公开拓表的,如新闻宣布、出版的书本或学术论文等。但手语数据无法屏蔽肖像,纵然是在脸部任何部位打上马赛克,都会导致语义信息丢失。眼睛是表情中最主要的部分,我们常常说它们是心灵的窗户,眼睛的睁大、闭合,乃至眼神都包含了丰富的信息。如果在处理数据时屏蔽了这些信息,就无法进行有效的识别。
因此,我们目前的做法是--有限度的授权利用。
我们确实意识到,如果不发布数据,它们就无法得到广泛运用,但一旦发布,又如何保护这些信息呢?
因此,对付表示不愿让自己的信息被发布的聋人,我们都会做出承诺。保留了原始数据,但仅在不公开的情形下,用于我们自己的研究和不雅观察。
苏剑波:关于隐私保护的问题,我并没有一个特殊好的答案。但在这个过程中,我一贯在向碰着的人们阐明,在公开场合,无论你是残障人士还是健听人,大家都是没有隐私的。
当然,如果有人恶意利用你的肖像或生理特色,那便是另一回事了。这种情形下,该当从法律角度对滥用者进行惩罚。
实际上,任何人只要不在自己家里,在表面就都没有隐私。以是,隐私该如何保护?如何进行过滤?
包括马赛克等手段,现在都可以用人工智能算法规复成正常状态,这些技能已经没有什么秘密可言。在这个问题上,确实很难做到完备的过滤。当然,倪老师刚才提到的也很对,我们须要尊重利用者的个人意愿。
我会见告他们,我会如何利用他们的生理图像,如果他们赞许,我就利用;如果不同意,我就不该用。
但实际上,我也不断向他们阐明,在公开场合下,你的图像很随意马虎被别人利用。以是,让他们逐渐理解当代科技已经发展到何种程度。通过我几次阐明后,他们也能理解了。我会给他们看各种各样的视频,让他们明白公开场合下的监控是多么普遍。
但如果有人恶意利用他们的信息,他们完备可以起诉对方,我也会供应帮助。这样,他们就能理解这个问题了。目前没有特殊好的办法,每个人都有自己的权利,不容陵犯。
方昱春:只管在公开场合,我们的部分隐私确实随意马虎透露,但从管理的角度来看,我们仍旧须要建立完善的制度来进行伦理审查。
例如,针对手语识别项目,我们可以约请专家和聋人代表共同制订符合道德伦理哀求的规则。
在数据采集过程中,就像我和倪老师在制作数据集时所做的那样,我们须要向聋人透明地解释为何网络这些数据,以及我们将如何利用这些数据,并征得他们的赞许。这本身便是一种保护方法。
在数据管理上,我们也该当制度化,只管即便尊重并保护数据,防止透露。尤其是在涉及商业运作时,我们须要特殊把稳,由于不当处理可能会让人感到被陵犯。如果能通过预防来保护隐私,那么从利用者的角度来看,他们会更加满意。
在支配手语识别系统时,我们该当避免收支配那些与个人干系的信息。对付这部分数据,我们可以进行加密,并在传输和存储过程中将安全性放在主要位置。我们须要仔细考虑哪些数据该当上传到云端,哪些不应该。
隐私保护也是我们领域的一个主要研究方向。我自己也在研究面部隐私保护技能,目前我们称之为“Face DeID”。早期DeID会对面部打马赛克或添加噪音作为保护方法,但这样就无法保留手语的措辞学特色。现在,我们可以利用AIGC等技能,在保留手语措辞学特色的同时,保护个人身份信息。
我认为我们的技能有可能实现一个较好的平衡:我们可以利用数据,但同时也能确保利用的数据是安全的。如果我们考虑全面,制度合理,在技能进步同时也守卫伦理道德。
田英利:我认为各位老师的谈论非常精彩,特殊是在手语识别方面,由于我们须要面部表情、手势以及身体动作的合营。以是,如果大略地对视频打马赛克或其他处理,其他人可能就无法利用这些数据了。正如方老师所提到的,信息保护在这一领域中极为主要。
我在IBM事情时,我们组参与过指纹识别项目。指纹是唯一的,一旦丢失,就无法再用于银行密码等。但我们的同事提出了一种可撤销的生物特色识别方法。这启示我思考,未来我们或容许以对手脸进行某种变换,既保留了对打算机视觉有用的信息,又不透露个人的主要信息,这是一个值得探索的方向。
1.用多模态大模型来做识别手语会不会更好?
田英利:关于利用多模态大型模型进行手语识别的问题,我的回答是肯定的。当然,采取多模态的方法肯定会带来更好的识别效果。目前,研究和开拓的趋势正是朝着这个方向发展。因此,大略来说,利用多模态大型模型进行手语识别是一个明确且必要的提高方向。
2.有团队正在考虑如何建立一个类似于“手语-GPT”的根本模型,能兼容环球各地的手语。那么,手语语法和方言是难题吗?还是说,只要数据充足就能完成“暴力美学”?
方昱春:这个问题让我想起了我国著名的措辞学家赵元任,他是一位能够在极短的韶光内学会不同地方方言和多国措辞的超级措辞学家。
他节制和利用措辞的速率非常快,是人类智能的一个精彩代表。虽然这样的例子可能非常罕见,但如果我们的人类能够具备这样的能力,对多种方言和措辞具有极高的适应性,那么我们大概能够让一个“手语GPT”模型也具备这种多方言的适配能力。
由于只管措辞千变万化,但每种措辞都有其共性,不是完备无法相互学习的。因此,我认为这是一个值得探索的有益想法。
倪兰:措辞学的终极目标是探索人类措辞的普遍性事理。包括美国措辞学家乔姆斯基在内,许多学者都在探求方案,希望用一套规则来阐明人类措辞的共性,措辞的核心在于形式如何表达意义,我们希望找到措辞形式的共同规则,以及与意义的匹配办法。
比如,所有的措辞都包含否定和疑问的表达,只管表现形式互异;又比如每种措辞中能够表达意义的语音数量是有限的。但我们尚未找到一套完美的规则来阐明所有人类措辞,这是由于我们对措辞的理解还不足深入。
有时看国外的聋人电影或电视剧,我创造不同国家的手语之间存在一定的相似性。
例如,我们会看到日本手语与中国手语有很多相同的手势,这表明手语的前身——身势语——在人类中有着共通之处。如大多数人通过摇头表示否定,只管也有的文化中利用仰头来表示否定。
我相信,手语之间的可懂度可能比有声措辞高。
有研究表明,利用不同手语的人之间的可懂度,高于利用不同有声措辞的人。周文罡教授也曾提到,他们利用美国手语、德国手语等其他国家的手语数据集来演习,这表明个中存在一些共通的元素。
我们目前对手语的语音剖析都基于美国学者William .Stokoe对手语的手形、位置和运动的切分,以及后来加入的方向和表情体态剖析。这些基本特色剖析在每一种手语中都具有代价。因此,如果我们能够构建这样一个模型,并将这些特色导入手语的剖析标注中,我们一定能创造许多人类措辞共通的东西。
苏剑波:我的想法可能相对大略,但我认为这里有一个值得磋商的小方向。我们知道人类有多种不同的措辞表达办法,包括口语、手语、肢体措辞,以及各种方言等,这些都是非常个性化的表达形式。我在思考,是否有可能通过识别个体的脑波来取代对措辞的感知和手语的识别?这是否是一个可行的方向?
由于脑波的感知更加个性化,这可能会为我们供应一个全新的互换办法。我提出这个问题,希望能与大家一起磋商这个可能性。
田英利:马斯克的Neuralink项目就在探索人脑与打算机接口的可能性。他们最近彷佛也取得了一些进展,这可能是最直接的办法来实现人脑与机器的互换。
至于“手语GPT”,从技能角度看,如果我们能够获取环球范围内的大规模数据,我认为是有可能的。就像现在不同措辞之间的翻译,曾经被认为是一项艰巨的任务,但现在ChatGPT可以轻松地在英文和中文之间切换,没有任何问题。
但从履行的角度来看,我认为还存在一些困难。毕竟,聋人群体相对较小,当须要大量的打算资源和技能支持时,是否有政府或家当乐意投入巨大的财力和数据来做事这样一个相对较小的受众群体?
他们须要考虑实际的投资回报,如果投入巨大但收益有限,乃至可能不赢利,只有少数人受益,他们是否乐意这样做?
因此,我认为对付手语识别或帮助残障人群的项目,须要政府的政策支持和帮助,以及不同家当的帮忙。但这些项目能盈利多少,我持保留态度。
此外,残障人士本身对高科技的接管程度可能有限,加之环球老龄化问题,一些老年人可能存在听力或视力丢失。让他们利用电话或平板电脑可能更加困难。我们如何让这些弱势群体享受到科技的红利,须要政府的大力推广和支持,单靠个人力量是难以实现的。
不知不觉,我们已经谈论了两个小时,非常感谢大家的分享。由于韶光关系,我们本日的论坛谈论就要告一段落了。非常感谢大家,感谢雷峰网为我们供应了这样一个互换思想、碰撞聪慧的平台。
希望在未来的论坛中,能有更多有需求的人士加入我们的谈论。
也希望我们的技能能够在不久的将来,真正运用到他们的日常生活中。
本文作者吴彤,欢迎添加微信(icedaguniang),互换认知,互通有无。
未经「AI科技评论」授权,严禁以任何办法在网页、论坛、社区进行转载!
"大众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。