赶紧来试试,先来一段《曹刿论战》的开头:
我震荡了,居然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。
难道AI除了学习文言文词汇和语法,还熟读了《左传》?
换成诗表现又将如何?
虽然翻译出来不是很有文学性,但AI精确理解到了“望着同一个玉轮”这层意思。
嚯,这个翻译极大地引起了我的兴趣。
如果百度和微软一起上考场既然翻译出精确词意不是太难,那文言文中的分外语法AI能否节制?
为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。
第一题:秦时明月汉时关
这里考点是互文的修辞方法,该当理解成秦汉期间的明月、秦汉期间的关口。
百度的答案是:
看来百度没理解到位,再看看微软的答案:
微软精确理解了互文,率先拿下1分。
第二题:东风又绿江南岸
这句的考点是词类活用,绿本来是个形容词,在这里用作动词。
还是百度先来:
没问题,接下来是微软:
等一下,虽然绿用作动词翻译对了,可是后面怎么多了一个“可是”?
难道……把后半句诗也输进去试试:
果真如此,看来微软翻译在用整句进行演习的时候节制了句与句之间的迁移转变关系,后来不知怎么又算到前半句里了。
这次百度扳回一局,1:1平。
末了一题磨练一下文言文中的另一个常见语法征象——倒装
比如《邹忌讽齐王纳谏》中的“我孰与城北徐公美?”
按老例百度先:
然后是微软:
看来两个AI都学会了倒装句的用法,终极结果2:2平,各有千秋。
微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理须要再练习。
接下来寻衅一下微软文言文翻译的极限。
比如维基百科实在就有个文言文版叫维基大典,里面刚好有微软的词条。
来试试让微软AI翻译一下自己公司的先容:
看起来当代的伪文言文对付这个刚出生的小AI来说还是太苛刻了。
虽然也特殊演习了“微软”和“电脑”这种当代才涌现的名词,但碰着“一九七五年”这种古代不用的表达就弗成了,前老板比尔盖茨的名字也没认出来。
“立之者”这里还按古文的语境脑补出一个“国君”,可能这便是过拟合吧。
说到当代的表达办法,实在这个翻译工具还可以倒过来用,把口语文译成文言文。
比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!
”假如用文言文说出来是不是就更对味了?
那么,这样的模型是怎么“炼成”的呢?
Transformer加成,专攻演习数据用AI搞文言文翻译,确实不是头一回见。
百度是最早用机器学习做文言文翻译的,还申请过干系专利:「一种在口语文与文言文之间进行文体转换的方法和设备」。
干系文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采取的,便是Transformer模型:
△图源:微软研究院AI头条
不过,文言文翻译中的演习数据,却一贯是个难点。
比较于其他主流措辞(中文当代文、英文等),文言文可以说是演习数据极少,同时还存在句式变换、繁简稠浊等问题,造成翻译的生硬。
这次微软的文言文翻译,紧张就办理了四个方面的数据问题:
其一,针对数据量不敷,利用相同字词进行数据合成和增强。文言文和当代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的演习数据。其二,针对句式变换不灵巧,对数据格式进行变形,提升鲁棒性。文言文断句和当代文不太一样,为此研究职员通过数据格式变形,来扩大演习数据量,让模型也学会翻译类似语句。其三,针对字体识别不力,用简繁稠浊数据演习,提升模型识别能力。为了让机器学习能同时识别简繁稠浊的文言文,研究职员在演习模型时会将简体中文和繁体中文数据稠浊在一起进行演习,确保翻译模型不出错。其四,针对当代文的“新词”,专门建立干系数据集和识别模型,确保不“乱翻译”。为了避免模型在碰着当代文中的“高铁、电脑、互联网”这种词时涌现混乱(例如将高铁翻译成高处的铁块),研究职员建了一个模型,专门用来识别这些新词。除了新词,也针对博客、论坛、微博等新文体进行演习。然而这都还只是文言文和中文之间的互译,整点英文试试?
英译中,bug藏不住了这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?
先寻衅一下单个的英文句子:
Never gonna give you up
看来大略句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗「当你老了」试试:
等等,“灰暗”、“阴景深”、“弯下腰在酒边”……这都是什么鬼?
大略的句子彷佛还好,然而一到长句子,怎么就翻译成这样了?
不过,微软也说过,这次紧张实现的是文言文和当代文互译,解释其他措辞在翻译成文言文之前,该当也须要先翻译成当代文。
那来看看微软的英译中效果怎么样:
破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文涌现失落误的缘故原由。
比较之下,从文言文翻译当代文、再翻译到中文的效果要轻微好一点。
顺带一提,虽然正经的英笔墨句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?
看来往后可以和翻译模型学习如何优雅地骂人了。(手动狗头)
如果大家还调戏出了什么好玩的翻译,欢迎留言~
微软文言文翻译地址:https://cn.bing.com/translator
参考链接:[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态