作者 | 神经小兮
本文经授权转载自HyperAI超神经(ID:HyperAI)
封图 | CSDN 付费下载自东方 IC
中秋假日之际,在这个团圆赏月的节日,引发了古今无数文人的情怀,留下了诸多隽永的诗句。
面对中秋花好月圆的良辰美景,古人能够吟出「海上生明月,天涯共此时」的绝美诗句,而现在大多数人却只能无奈地,将无限感慨化为一句「啊,玉轮好圆。」
这大概便是「落霞与孤鹜齐飞,秋水共长天一色」和「好大一只鸟」之间的间隔吧。
不过,不用难过,现在,AI 可以帮我们超过这个间隔,让每个人都能轻松吟诗为难刁难,成为墨客!
华为推出「乐府作诗」小程序
近日,华为 EI 体验空间小程序上线了一个新功能——乐府作诗。只要给出主题,选定字数与文体(绝句或律诗),就能瞬间作出一首诗。
比如,输入「中秋」:
「赏月」:
「机器学习」:
「人工智能」:
如果不见告你,你能看出这些诗是 AI 所写吗?
今年 6 月,华为诺亚方舟实验室就揭橥了论文《GPT-based Generation for Classical Chinese Poetry》,详细先容了该模型的演习过程以及成果展示。
总的来说,这个诗歌天生模型背后的关键技能,在于强大的 GPT 模型。
GPT 是由 OpenAI 提出的预演习自然措辞模型,核心理念是先用无标签的文本去演习天生措辞模型,然后再根据详细的任务通过有标签的数据对模型进行微调。
团队先用大规模中文新闻语料,演习出了中文 GPT 模型。然后用中国古典诗歌作为语料库,对其进行了微调,就得到了诗歌天生系统——乐府 AI。
除了绝句和律诗,诺亚方舟团队还用微调的方法
演习它学会天生藏头诗
而且,为了让 AI 能够学习自己写诗,这个 GPT 模型没有进行任何设定,作诗所须要的字数、韵律、平仄、对仗知识,都没有设定,模型全靠自己从古诗数据中学会了这些。
和「乐府 AI」比较,学了多年语文,却依然写不出一句像样的诗的人类,真要自叹弗如了。
细数 AI 学作诗的进程
中国古典诗歌的天生,是自然措辞天生领域中一个有趣的寻衅。
与自由文本天生不同,中国古典诗歌在形式和内容上常日要知足一定的哀求。比如字数、押韵、平仄以及对仗等。此外,内容上也哀求整首诗的主题是同等且连贯的。
苏轼的《水调歌头》朗朗上口
如今还被谱成歌曲传唱
此外,中国古典诗歌有很多形式,五言绝句、律诗,七言绝句、律诗,以及词牌如满江红、水调歌头等,还有对联。
因此,要用人工智能的方法产生中国古典诗歌是比较繁芜的。华为诺亚方舟实验室的科学家,通过研究给定形式和特定主题的诗歌天生问题,提出了基于预演习模型 GPT 的诗歌天生方法。
方法详细细节为:「乐府 AI」以 Transfomer 为根本模型,基于 BERT 源代码,实现了自己的 GPT 模型。其 Transformer 大小的配置与 BERT-Base 相同,还采取了 BERT 中发布的标记化脚本和中文词汇。对付文本天生,他们实现了截断的 top-k 采样来天生不同的文本。
三首「乐府 AI」天生的诗歌,与一首诗歌真迹
总的来说,「乐府 AI」学作诗一共分为以下三个阶段:
第一阶段:数据处理
华为诺亚方舟实验室的 GPT 模型,以中文新闻语料库进行演习,数据演习紧张分为预培训和微调两个阶段。为了进行微调,他们网络了公开的中国古典诗歌,然后将样本诗转换为格式化的序列。
数据演习过程
第二阶段:模型演习
接着,他们在云做事上预演习了其 GPT 模型,包含一个新闻语料库,这一过程花费了 90 个小时。然后用 8 个 NVIDIA V100(16 GB)演习了 4 个阶段。
演习完成后,进行微调,将所有诗歌演习序列输入 transformer,并演习自动回归措辞模型,以不雅观察任何序列的概率最大化 X:
第三阶段:诗歌天生
演习完成后,便运用该模型,根据哀求天生特定主题的诗歌。
他们首先将形式和主题转换为[形式,标识符 1,主题,标识符 2 ]的初始序列,然后将初始序列给到模型,并对主体字段逐个进行解码。
在解码过程中,并不须要硬约束来担保形式的精确性。相反,该模型能够在解码时,自动分配逗号和句号的位置。当完成诗歌的天生时,会以「EOS」的 token 来结束这一过程。
「乐府 AI」不仅学会了作诗,还节制了一个新技能——藏头诗。
对付藏头诗,他们依然采取同样的方法来演习。只不过,演习藏头诗模型时,他们将之前演习过程中的主题(如「静夜思」),用该诗歌的每句首字来更换(如「床疑举低」)。
AI 墨客带来的惊喜
通过该方法天生的结果,令团队感到惊异。
他们创造模型学会了律诗的繁芜配对规则,这一规则,纵然对付母语为中文,并接管了正常教诲的人来说,都很难节制(相信很多同学也深有同感)。
在天生的绝句和律诗中,95% 以上都表现良好,不过在词牌方面稍有逊色。缘故原由可能是,相对绝句和律诗来说,词牌的形式相对来说更加繁芜,而且演习样本也远远不如前者多。
绝句和律诗都有成千上万的演习样本,而词牌只有 882 种,个中,只有 104 种的演习样本超过 100 个,纵然是最大的样本,也仅包含 816 个。
系统根据「秋思」主题天生的各个体裁的诗歌
其余,在给定的主题中,常日天生结果都很好,但是对付某些主题,比如「机器翻译」,由于在演习语料库中很少涌现,就不好天生诗歌。相反的,像「秋思」这类主题,就很随意马虎天生。
团队先容道,该方法比现有基于循环神经网络(RNN)的方法大略的多,并且可以产生更好的诗歌。
AI 学作诗,早已有之
有人说,中国是一个诗的国度。自古至今,文人墨客、文艺青年对付写诗都激情亲切不减。而广大理工生,也不断用技能来表达其浪漫情怀。
2017 年 12 月,清华大学团队研发的诗歌机器人「九歌」亮相央视节目《机警过人》,作的诗给不雅观众带来了巨大惊喜。
「九歌」便是基于深度学习,学习了超 80 万诗歌后学会了写诗。它具有多模态输入、多文体多风格、人机交互创作模式等特点。
除了古诗,当代诗对付 AI 来说也彷佛不在话下,比如微软小冰就出版过诗集,国外也有多种措辞版本的 AI 诗歌天生工具。
AI 是真正会写诗,还是瞎凑?
AI 写诗,有人讴歌,有人批驳。
微博网友对 AI 写诗的意见
上海诗词学会理事刘鲁宁曾表示,写诗拼速率,人类比不过电脑,但是自己用一天韶光写的诗,电脑写一千首页比不过。理事邓婉莹也表示,AI 作诗的特点是「有诗无篇」。
比较起文人墨客,在文思泉涌之时的创作而言, AI 写的诗可以说是「没有感情的写手」,他们在大量的笔墨中,创造诗词的规律,并「拼凑」出完全但可能无意义的诗句。
但对付研究者们来说, AI 作诗更多是作为技能能力的展现,他们更看重 AI 作诗背后 NLP 技能的发展。
其余,对付普通人来说,AI 作诗工具也让每个人都可以去创作,用诗歌表达自己的感情,便是作为一个娱乐的工具,也是不错的。让我们也给 AI 一些韶光,相信它会为这个天下带来更多惊喜。
【END】