妈妈再也不用担心我的文言文阅读”

AI读过四库全书往后,可以利用超棒的古文语感学会断句标点,见《让AI一口气读完四库全书会若何?》,这次,在研究职员的加持下,TA不仅能够吟诗为难刁难,还能像古人一样和我们对话啦!

AI文言文创作能力大年夜测评

近日,有研究者在有名模型仓库Hugging Face上发布了一系列古汉语天生模型,这些模型通过学习大规模古诗词和文言文数据,实现了对对联、作诗填词和用古文“胡说八道”等各种炫酷功能。
让我们来看看古人的测(tiáo)试(xì)记录吧🤩

先提两个圣贤一定能说得条理分明的问题:

彷佛有模有样🤔

要不,问个圣贤不一定知道的:

难道你便是魔镜本镜?

好了好了,接下来要进行正经的创作能力测评,科举考试题目呈上:

理解题意无压力😉

清代盛行的“混搭双拼题”,也能瞎诌几句

再来温习一下苏轼和曾巩那年的考题:

已经不知道在编什么了,求欧阳修放过🤔

那来看看想象力如何?

“我的想象力天马行空没有边界”

接下来,进行诗词能力综合考评:

Round 1. 命题作文:

睹物思人✅

Round 2. 诗词续写:

准确理解了吊唁亡妻的感情✅

Round 3. 古风歌词互动:

思乡感情GET✅

江湖风雨入眼帘✅

正经评测结束!
末了,让我们纯挚地来谈天吧😂

谈天时心系天下苍生🤔

而且反应很快,每次回答不带重样的

再换用当代人的口气玩一下:

TA把我当成了婴儿?

TA开始对我说婴语?

我总算被当成正凡人了😏

来自网友的贡献:

哈哈党一定想不到哈哈哈的归宿😂

“你说什么我都能接🙄”

一番测试下来,创造古文AI有着不错的语感、丰富的想象力和迅疾的反应速率,但间隔古人丰裕的精神天下还有大大的间隔,在表达正经不雅观点时不免不说八道。
据模型作者先容,这版古文AI采取了GPT-2模型(Generative Pre-trained Transformer 2),目前,GPT-2可以实现大略的翻译、问答、文档择要等功能,只管有时非常逼真,但在天生大段笔墨时可能会涌现重复或无意义的表述。

大略来说,TA节制了语法,但还没有自己的思想。
期待伴随技能的进步,TA能够对措辞有更深的理解,从而帮助我们去做古籍的订正、翻译这些更有寻衅性的事情。

而现在的版本,可以先陪大家一起玩耍,点击阅读原文一键与古人对话,欢迎留言分享故意思的玩法(充分挖掘TA的潜能)!

注:对话框中的[CLS]是句子开头标记,请每次测试时都保留哦。

=====模型解释书=====

本文所先容的古文GPT-2模型由海内研究者采取UER开源框架演习而成,演习语料为殆知阁古代文献2.0版语料库,近33亿字。
由于该库中75%文本均未标点,研究者采取北京师范大学古诗文断句系统对其进行自动标点,得到了近300万段文本作为演习语料。
更多信息,可参考如下链接或论文:

注释

1.古文天生专属入口:https://huggingface.co/uer/gpt2-chinese-ancient

2.对联天生专属入口:https://huggingface.co/uer/gpt2-chinese-couplet

3.古诗词天生专属入口:https://huggingface.co/uer/gpt2-chinese-poem

4. UER框架:https://github.com/dbiir/UER-py/

5.北师大古诗文断句标点工具:http://seg.shenshen.wiki/

6.Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.

7.Zhao Z, Chen H, Zhang J, et al. UER: An Open-Source Toolkit for Pre-training Models[J]. EMNLP 2019, 2019: 241.

8.胡韧奋,李绅,诸雨辰.基于深层措辞模型的古汉语知识表示及自动断句研究[C].第十八届中国打算措辞学大会(CCL 2019).

特殊鸣谢

敦和基金会

文章原创|版权所有|转发请注出处

"大众年夜众号主编:孟琢 谢琰 董京尘

任务编辑:楊家睿