作者:田小幺
编辑:李宝珠,十九
8 月 11 日,享誉环球的 Annual Meeting of the Association for Computational Linguistics (打算措辞学协会年度会议,简称 ACL) 在泰国曼谷正式开幕。ACL 2024 为期 6 天,除主会外,还有 34 场 Workshops。
自 2022 年起,ACL 启用了滚动审稿机制 (ACL Rolling Review, ARR),每月设定一个截止日期。今年 1 月,官方还宣告了一项利好——论文投稿取消匿名期,同时许可作者在投稿期间宣扬自身事情。这一规定也在公布后的下一个审稿周期直接生效。
根据官方数据显示,今年的主会任命率为 21.3%,Findings 任命率为 22.1%。
值得一提的是,ACL 2024 还增加了一个特殊专题「Open science, open data, and open models for reproducible NLP research」,该专题吸收高质量开源数据集、开源模型、开源软件等干系研究成果,旨在引发业内有关开放科学和可重现 NLP 研究的谈论,并支持开源软件发展。
8 月 14 日,ACL 2024 的一系列奖项陆续公布。该专题吸收了 22 篇主会论文,得到专题论文奖的是「OLMo: Accelerating the Science of Language Models」。
论文地址:
https://arxiv.org/pdf/2402.00838
图源:谷歌 DeepMind 研究员 Shmuhammadd
韶光测试奖 (Test of Time Award) 颁给了 2014 年揭橥的「GloVe: Global Vectors for Word RepresentationGloVe」。
论文地址:
https://aclanthology.org/D14-1162.pdf
此外,ACL 2024 还评比出了 7 篇最佳论文,华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学共同揭橥的「Deciphering Oracle Bone Language with Diffusion Models」荣获最佳论文,第一作者为华中科技大学软件学院院长白翔教授团队 2021 级本科生管海粟。HyperAI超神经将在本文为大家带来详细解读。
剩余 6 篇获奖论文分别是:
Causal Estimation of Memorisation Profiles
论文地址:
https://arxiv.org/abs/2406.04327
研究机构:剑桥大学、苏黎世联邦理工学院
研究内容:研究职员提出了一种新的、有原则且高效的影象估计方法,只须要不雅观察模型在全体演习过程中的一小部分实例行为,就可以描述出模型的影象特色——即其在演习过程中的影象趋势。
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Mode
论文地址:
https://arxiv.org/abs/2402.07827
研究机构:Cohere For AI、布朗大学、Cohere、Cohere For AI Community、麻省理工学院、卡内基梅隆大学
研究内容:研究职员推出了一个大规模多措辞天生措辞模型 Aya,遵照 101 种措辞的指令,覆盖措辞种类增加了两倍。此外,研究职员还引入了广泛的新评估套件,扩展了 99 种措辞的多措辞评估技能。
ExplainableDetector: Exploring Transformer-based Language Modeling Approach for SMS Spam Detection with Explainability Analysis
论文地址:
https://arxiv.org/abs/2405.08026
研究机构:孟加拉国 BGC 相信大学、爱丁堡纳皮耶大学、伊迪斯科文大学
研究内容:研究职员采取优化微调的 Transformer-based 大措辞模型来检测垃圾邮件。结果表明,优化微调的 BERT 变体模型 RoBERTa 能够得到 99.84% 的高准确率。
Semisupervised Neural Proto-Language Reconstructior
论文地址:
https://arxiv.org/abs/2406.05930
研究机构:卡内基梅隆大学、南加州大学
研究内容:研究职员提出了一个半监督的历史重修任务,模型只在少量标记数据和大量未标记数据上进行演习。还研发了一个比较重修的神经架构 DPDBiReconstructor,结合措辞学家比较方法的基本见地,能够利用未标记的同源词集,在新任务上的性能优于强半监督基线。
Mission: lmpossible Language Models
论文地址:
https://arxiv.org/abs/2401.06416
研究机构:斯坦福大学、加州大学、德克萨斯大学
研究内容:研究职员合成了一系列繁芜的、不存在的措辞,并评估 GPT-2 模型对这些措辞的学习能力,结果创造,比较于学习英语,GPT-2 在学习不可能措辞方面存在困难。
Why are Sensitive Functions Hard for Transformers
论文地址:
https://arxiv.org/abs/2402.09963
研究机构:德国萨尔大学
研究内容:在 Transformer 架构下,丢失景不雅观 (loss landscape) 受到输入空间敏感性的限定,通过理论和实证,该理论可以统一关于 Transformer 学习能力和偏见的广泛实证不雅观察 (broad array of empirical observations)。
深度解读获奖论文
接下来,HyperAI超神经将分别从模型架构、数据集、研究成果及团队先容 4 个方面,为大家深度解读「Deciphering Oracle Bone Language with Diffusion Models」。
在该研究中,华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学,利用基于图像的天生模型,演习出了一种针对甲骨文破译优化的条件扩散模型 Oracle Bone Script Decipher (OBSD),该模型利用甲骨文的不可见种别 (unseen categories) 作为条件输入,以天生对应的当代汉字图像,为自然措辞处理难以办理的古笔墨识别任务供应了一种新颖的方法。
研究亮点:
通过利用图像天生技能,为古笔墨识别任务供应了一种新颖的方法
OBSD 用局部分析采样技能增强了模型对字符繁芜模式进行区分和解释的能力
通过全面的溶解研究和基准测试,证明 OSBD 在解码方面的有效性
该研究所利用的数据集下载链接:
EVOBC 甲骨文笔墨蜕变数据集:
https://go.hyper.ai/4UAJR
HUST-OBS 甲骨文识别数据集:
https://go.hyper.ai/46AiA
数据集:采取甲骨文最大存储库,以 OCR 技能作为衡量标准
为了演习和评估所提出的 OSBD 模型,该研究选择了 HUST-OBS 数据集和 EVOBC 数据集,它们是甲骨文的最大存储库之一,包含 7,1698 张图片描述的 1,590 个不同的字符。
考虑到破译未知的甲骨文常日须要更为全面的专业验证,该研究仅将已被破译的笔墨作为测试集,从而简化了全体评估过程。更主要的是,该研究还对测试集中选择过的字符种别专门在演习集中进行了打消,确保该模型被用来破解的是从未处理过的字符。该数据集按 9:1 的比例划分为演习集和测试集,为评估供应了可靠的框架。
其余,虽然 OSBD 模型是从图像天生的角度进行甲骨文破译,但传统的 SSIM 等图像天生度量指标并不适宜这项任务。因此,该研究采取 OCR 技能作为对破译成功结果剖断的更客不雅观的衡量标准。详细来看,研究职员通过利用 ResNet-101 骨干网络的大略分类器定制 OBS-OCR 工具,专门针对包含 88,899 个当代汉字类别的大型数据集进行演习,以评估模型的输出。
结果表明, 定制 OCR 工具实现了 99.87% 的识别准确率,证明了破译结果的可靠性。同时,该研究还广泛引入了开源中文 OCR 工具 PaddleOCR 1,从而进行进一步的评估。这种双 OCR 方法为模型破译甲骨文的有效性供应了强大保障。
以条件扩散模型为基准,重构 OBSD 模型
这项研究将演习集表示为 S = {(si, ci) | si 是一个甲骨文实例,ci∈C},即将甲骨文实例与一组已知种别 C 中的当代汉字对应起来,并在现有匹配缺失落的地方提出新的字符形式。为了实现这一点,该研究基于扩散模型将甲骨笔墨符图像 X 转换为其当代汉字等价物。
如下图所示,该模型分为两个阶段:
在前期阶段中 (Noising),研究职员通过向当代汉字图像 X0 引入噪声,利用可控的马尔可夫链过程,将其过渡到类似于纯噪声的状态,终极形成高斯分布 N (0, I)。
在去噪 (Denoising) 阶段中,研究职员利用 U-Net 架构演习模型 fθ 预测噪声 e 和规复图像,并且利用 et ∼ N(0, I) 引入随机性,以增强模型天生结果的多样性,终极解码的结果是天生去噪图像 X0。
在此根本上,OBSD 模型集成了初步破译阶段(Initial Decipherment)和零样本学习阶段(Zero-shot Refinement),以提高解密精度,如下图所示。
首先,通过对甲骨文图像 X 进行条件扩散以逼近初始图像 X0,然后通过零样本学习方法对其进行改进,并且利用 Xref 作为参考来纠正和增强构造。受益于改进过程中对笔墨构造的洞察,最终生成了对标当代汉字的笔墨结果 XF。
引入 LSS 观点,增强模型在古代笔墨与当代汉字之间的连接能力
然而,在实际的运用案例中,这样演习的模型并不能准确天生所对应的当代汉字,而是基于大量随机片段构成了一些胡言乱语,如下图所示。
直接应用条件扩散模型导致破译失落败
研究职员推测造成这个结果的缘故原由是:扩散模型紧张是为了天生自然图像而设计,但在甲骨文破译过程中,甲骨文图像与当代汉字之间的构造存在极大差异,这使得标准条件扩散模型无法准确重修目标当代汉字。
为理解决这一寻衅,该研究引入了局部构造采样 (LSS) 观点,帮助扩散模型学习如何将甲骨文的局部部首构造映射到相应的当代汉字之中,从而增强模型在古代笔墨与当代汉字之间的连接能力。研究还创造,只管从古代汉字到当代汉字存在相称大的构造演化,但某些局部构造得到了保留。
为了使扩散模型能够学习局部构造的特色,LSS 模块采取滑动窗口方法将目标当代汉字图像 X0∈RHxWx3 和对应的甲骨文图像 X∈RHxWx3 分割成大小为 p×p 的 D 个小块,表示为 X(d) 和 Xt(D)∈Rp×p×3, D=1,2…D, p=64。在这里,Xt 表示在韶光步长 t 上添加高斯噪声 ϵt 的当代文本图像。
基于此方法,模型可通过学习甲骨文的局部构造和汉字构造的眇小差别来迭代和优化补丁。该研究方法的独特之处在于,它在没有完成去噪的情形下,就在每个韶光步长 t 上对相邻区域之间的重叠进行均匀,以确保共享区域的均匀效果。同时,该研究通过在平滑采样过程中的区域性过渡,避免了边缘差异,保持了重修图像的视觉同等性。
引入零样本学习方法,增强模型对字符构造的理解能力
只管利用局部构造采样天生当代汉字取得了一定进步,但最初的破译事情仍旧会碰着构造变形和伪影等明显的障碍。
这是由于利用的是多对一演习方法,即将多个甲骨文实例与一个当代汉字图像进行映射,导致在捕捉字符蜕变时涌现稠浊和不准确,并且由于当代汉字样本有限,导致涌现了不完全的构造。
多对一和一对一演习范例的比较
为了战胜这些寻衅,该研究提出了一种零样本学习策略,通过利用不同的当代汉字书写风格来提高模型对构造的理解。在实际操作中,该研究在 20 种不同的当代汉字字体上,以一对一的办法演习了该模块,从而学习了不同当代汉字书写风格之间的构造变换,增强了模型对字符构造的理解能力。
如下图所示,该零样本学习方法基于一个通用字体风格转换框架,通过双编码器系统,使源字体图像 X0 的样式适应目标样式 Xref,同时保留内容完全性。风格编码器 Es 从 Xref 提取样式特色 es,而内容编码器 Ec 处理 Xo 和 Xref 以得到多尺度内容特色 Fo,并通过具有多尺度内容聚合 (MCA) 和参考构造的 Font U-Net 进行精髓精辟。演习完成后,即可直策应用零样本学习模块对扩散模型天生的结果进行优化。
OSBD 表现评估:在多重评估标准下的识别准确率均为最高
为了定量评估 OSBD 的表现,该研究利用了单轮解密和多轮解密两种不同的评估标准。由于没有专门用于甲骨文破译的工具,该研究采取了一个比较框架,使领先的图像到图像的翻译方法适应于这项任务。
详细来看,这些方法包括 Pix2Pix, CycleGAN, DRIT ++ 等基于 GAN 的方法,以及 CDE, Palette, BBDM 等扩散模型。这种设定担保了 OBSD 方法能够在最新的图像转换背景下进行评估,并且确保了公正的同等性演习和测试条件。
在单轮解密评估中,OBSD 在破解甲骨文方面相较于修正后的图像到图像的转换方法具有显著上风,如下图所示。
OSBD 通过 OBS-OCR 和 PaddleOCR 实现的 top-1 准确率分别为 41.0% 和 30.0%,表现相较于其他方法更优。随着排名的提高,准确度有明显的改进趋势,在 top-500 准确率下,OSBD 达到了 64.5% 的 OBS-OCR 识别准确率。
值得把稳的是,所有基于 GAN 的方法(如 Pix2Pix、Palette、DRIT++ 和 CycleGAN)在这种情形下表现出的有效性最差,top-1 准确率为 0%。这可能是由于 GAN 本身难以捕捉用于破译甲骨文所需的繁芜且奇妙的映射关系。
在多轮解密评估中,OBS-OCR 在多次考试测验中的成功率逐渐提高,指标从 41.0% 的成功率不断提升到 80.0%,如下图所示。
PaddleOCR 指标的增长趋势也呈上升趋势,从 30.0% 开始终极达到了 58.5%。这些结果都验证了通过连续考试测验可以实现增量改进。
为了进一步稽核各个组件的影响,该研究还进行了溶解研究,重点关注了 LSS 模块和零样本学习。结果表明,仅利用基本条件扩散模型对甲骨文进行解码存在局限性,具有显著较低的准确率。详细来说,在没有任何增强的情形下演习扩散模型会导致输出基本上毫无意义。
通过引入 LSS 模块,OBS-OCR 的识别准确率提高到了 37.5%,PaddleOCR 提高到了 24%。通过将零样本学习模块与 LSS 合营利用,可进一步提高 OBS-OCR 和 PaddleOCR 的 Top-1 准确性,分别额外增加了 3.5% 和 6%。
末了,该研究还对各种图像到图像的转换模型进行了定性研究。
结果表明,通过 OBSD 方法输入甲骨文能够产生最准确的当代汉字破译,并且能够辨别甲骨文的繁芜细节,这些结果不仅突出了 OSBD 的有效性,还突显了它作为甲骨文措辞破译专家工具的潜力。
研究团队熠熠生辉,拓荒 AI+甲骨文
在古笔墨研究领域,尤其是甲骨文研究方面,华中科技大学一贯以来都立于时期的最前沿,是海内最早培植自主甲骨笔墨库的和高校之一。随着人工智能技能的快速发展,笔墨和图像智能处理成为人工智能科研领域的热点之一,以白翔、刘禹良研究团队为代表的华中科技大学再次当仁不让的成为笔墨图像智能的拓荒者与引领者。
白翔教授作为国家杰青、IAPR Fellow,现任华中科技大学软件学院院长、机器视觉与智能系统湖北省工程研究中央主任等职务。此前,白翔教授主导开拓的 Monkey 多模态大模型就曾获大模型威信榜单 OpenCompass 开源版榜首,成果已被运用于武汉龙头软件企业的创新产品。
作为白翔团队核心骨干,刘禹良入选了第九届中国科协青年人才托举工程项目,聚焦笔墨图像智能,在文档智能剖析、视觉与自然措辞理解、多模态大模型等方面取得了一系列事情成果。
伴随着技能的发展逐渐成熟,为了在甲骨文研究方面取得更大打破,白翔与刘禹良教授与毅然选择了与海内甲骨文研究顶尖机构之一的安阳师范学院进行深入互助。2018 年,安阳师范学院甲骨文信息处理教诲部重点实验室获批立项培植;2019 年,由实验室精心打造的集甲骨文文献库、著录库、字库三库合一的甲骨文大数据平台「殷契文渊」向全天下开放,这是天下上现有资料最完好、最规范、最威信的甲骨文数据平台,它的开放标志着甲骨学研究进入智能化时期。
值得把稳的是,本文的通讯作者之一的刘勇革正是安阳师范学院甲骨文信息处理教诲部重点实验室主任。
为了更好的记录和传播甲骨文研究事情,该实验室于 2023 年重点做了两件大事:一方面,联合腾讯 SSV、中国社会科学院考古研究所安阳事情站、安阳市文物局,共同启动了「甲骨文环球数字化回归操持」,利用上亿像素的相机,实现了甲骨实物在数字空间的高保真还原和保护。另一方面,该实验室和腾讯公司联合推出的「了不起的甲骨文」小程序,让甲骨文进一步走近大众。
不足为奇,为了方便学者更加便捷找到甲骨缀合的信息,缩短研究前期资料网络阶段的韶光,复旦大学出土文献与古笔墨研究中央的博士生杨熠、黄博、程名卉于 2023 年初共同联手打造了「缀玉联珠」甲骨缀合信息库,搜集了《甲骨文合集》出版以来,浩瀚学者的甲骨缀合成果,共 6,700 多组,不仅成为了学界检索甲骨缀合紧张成果的线上工具,也让不少「象牙塔」外的甲骨文爱好者有机会共同参与甲骨碎片的破案事情中,供应勘误和新的甲骨缀合信息。
由此可见,在大数据、云打算、人工智能等数字技能的助力下,甲骨文研究已经进入了一个全新时期。随着研究的不断深入,相信这项「冷门绝学」也终将在不远的将来被破解出更多密码,并且为破解其他古笔墨起到十分主要的借鉴意义。