中华书局朱翠萍老师首先先容了“《数字人文》专家面对面”系列讲座的活动,旨在谈论跨学科研究领域的数字人文问题,将以《数字人文》学刊揭橥的论文成果为线索,约请作者亲自解读研究思路和方法,以期更多专业的人文学者关注数字人文研究成果、利用数字人文方法和手段进行学术研究。

讲座主持人、清华大学人文学院刘石教授先容了中国数字人文的发展情形,以及《数字人文》的创刊和发展进程。
他认为,打算机科学、人工智能和大数据技能的发展使得大数据时期不期而至,技能的发展倒逼我们提出更高和更激荡民气的目标。
在深度学习技能的快速发展下,数字人文正在利用从数字化向知识化的转变,从大略的搜索转向更为繁芜的剖析与研究。
《数字人文》的口号是“数字使人文更新”,这个“更”字,既是更加,也是改换的意思。
数字人文技能不仅为人文研究带来新的研究材料和研究视野,而且能够更新人文研究的范式和路径。
在数字时期,对数字人文的重视须要上升到文化发展计策的高度来看待。

主讲人、清华大学打算机科学与技能系的孙茂松教授首先大略先容了知识的生产与传播中的一些辩证关系。
他提出,知识紧张由形式和内容组成,形式包括载体形式和内容形式,而知识的内容紧张指知识的思想内涵。
从实质上讲,内容决定了知识的深刻度和影响力,形式则对知识的传播度有巨大浸染。
也便是说,只管深刻性十分主要,但它不是唯一的标准,知识传播也很有代价。

若何把人文原始材料提炼转化为适宜打算机剖析的工具,以及若何利用打算机的剖析结果来赞助办理人文问题,是数字人文所面临的寻衅。
数字人文所利用的打算机技能涉及的面很广,但可归纳为多少类。
从历时角度讲,早期的事情是针对文本,后来逐步扩大到图像、视频、语音、3D等。
最早的数字人文事情非常基本、大略,紧张是将人文材料数字化,构建数字人文研究的资源根本(这催生了后来的OCR技能),以及利用打算机对已数字化了的文献著作自动建立索引。
紧接着是词搜索、排序、词频统计等技能,后来随着打算机干系学科分支的发展,又生发出聚类剖析、主题剖析、标签标注、自然措辞文本分析等与内容有关的剖析方法以及可视化设计等数据呈现方法。
近些年来,图像、视频、语音以及多模态联合剖析方法也取得了长足进步。
但总的来说,上述技能手段对内容语义的理解能力存在天然不敷,完备办理语义问题目前看是不可能的。
现有数字人文项目的履历见告我们,人工对数据的加工越多,数字人文研究的效果就越好。
不过常日数字人文技能紧张用于帮助人类专家从难以驾驭的超大规模数字化人文材料等分析宏不雅观趋势,因此语义剖析的准确率纵然只有七八成,也是很有参考代价的。

清华大年夜学孙茂松人工智能是若何写诗的

深度学习算法紧张有两大类:一类是卷积神经网络(CNN),紧张用于图像理解;另一类是循环神经网络(RNN)紧张用于措辞理解。
深度学习算法所采取的深层神经网络,构造简洁,规模繁芜。
神经元节点之间连接的权重最开始都是随机天生的,随后根据演习数据的偏差进行梯度反向传播,重新调度权重来降落偏差,循环往来来往,直到演习结果趋于稳定。
数学上已经证明,只要神经网络模型规模足够大,就能够逼近求解任何分类问题。
同时还有一条基本法则:要演习出规模足够大的好模型,一定要有足够大的演习数据量,两者互为依存、互为条件。
深度学习算法和大数据在这个意义上实现了高度的对立统一。

孙茂松认为,深度学习技能在数字人文领域内可以有很多运用。
最早进入"大众视野的是人工智能写诗,其基本过程是循环神经网络对大量已有诗歌数据进行自动剖析,通过其内置的把稳力机制算出已天生上文中每个字的主要性,对产生下一个字的概率进行预测。
依此逐字向前推进,写出诗歌。
所天生诗句的畅通性乃至所天生整首诗的整体同等性是上述机制重点考量的成分。
就现有结果而言,打算机在天生短文本方面的性能可圈可点,例如“九歌”对对子,或者是天生集句诗,即从历史文本中探求已有语义类似的句子来匹配组合,都有不错的表现。
但对付天生长文本,如短篇小说、散文等,能力还很差。
最近有西方学者对打算机写诗质量进行严明负责的评价,实验设置为:人从打算机自动天生的诗中挑选多少首,再同人写的多少首诗混起来,让其他被试去甄别哪些诗是打算机写的,哪些诗是人写的。
结论是被试难以区分,这表明打算机天生的诗已经差不多可以以假乱真。
但该实验不雅观察也表明,被试对打算机所写诗的喜好度明显低于人写的诗。
这里面还涉及一个十分繁芜、深刻的问题,即打算机写诗能否具有文学所追求的创新性?从深度学习的机制来看,该当说是有可能的,其事理是基于古代诗歌之大数据,可望让打算机习得古人诗歌各种规律所决定的可能天生空间。
这个空间是十分巨大的,古人已经写出来的诗歌,或许只是这个可能空间中的很小一部分,剩余部分该当会有一定机会展现出文学新意。
当然,这也取决于智能算法是否足够高明,否则很随意马虎落入已有诗歌的模拟和拼凑的“信息茧房”中。
如果采取“机天生+人修正”模式,创新效果更便于发挥出来。
深度学习在数字人文的其他运用还有很多,例如天生绘画作品、根据句子天生图像、机器人绘画、AI作曲等等。

图:一个基于改进把稳力机制的打算机诗歌天生基本模型(引自清华大学矣晓沅的博士学位论文)

当然关于数字人文还有很多其他问题,例如数字人文中的伦理道德问题:打算机产生的“虚情假意”的艺术能被人类接管吗?或者人类对数字艺术的宽容度问题:人类能够接管受机器启示或者人机共同产生的艺术吗?这些问题有待更多学者磋商。

末了,孙茂松教授总结道,深度学习实质上并没有理解语义,深度学习机制,看穿了便是神经元节点和连接神经元节点之间的权重,其行为呈现出某种智能,但内在机理上却完备没有智能。
只有密切结合数字人文的详细问题,妥善利用它,才能够办理一些问题。
归根结底,数字人文的核心还是具有深刻性的人文研究,受囿于人工智能技能的局限性,要达到这个目标,依然任重道远。
不过,数字人文与人工智能技能的结合在促进文化思想传播方面的巨大浸染,倒是因利乘便的。

讲座结束后,中华书局实行董事周绚隆进行了简短的评议。
他十分肯定孙茂松教授的不雅观点,认为文献研究已经自觉或不自觉地借用了一些数字人文的技能和成果,例如中华书局古联公司的中华经典古籍库等。
当然他也认同,数字技能是基于历史数据的,不能完备办理语义问题,也不能从根本上实现巨大的打破和创新。
但人文创作却须要背叛历史,不断寻求创新。
在这方面,人文学术有着数字技能所不能达到的深度和高度。

关于数字人文对学术的影响,他提出,从出版的角度看,近些年来,无论是论文还是书稿,篇幅都比以前要长很多,一个紧张缘故原由是目前的可用资料更多了,研究的内容自然也多了。
但如果仅仅把数据库和剖析工具的结果不假思虑地拿来运用到研究成果上,是十分不可取的。
基于数据库的剖析结果一定要经由人的干预,剔除无用和垃圾信息,基于人的研究和需求,寻求和利用有针对性的数据和材料。

他强调,对完备不理解打算机技能的人文学者来说,孙茂松教授先容的方法和案例深入浅出,启示性很大。
数字人文不是一种学科,而是一种方法,一种意识,有了人文阅读和学习,再通过工具来拓展视野,确实能够提出一些需求,改变一些认识,也能够为人文研究供应新的研究方法和角度。

在提问环节,听众提出了不少有针对性的问题,孙茂松教授也逐一做了精彩的解答。

末了,刘石教授总结道,数字人文是工程性项目,须要互助,须要大量的人力与财力的投入,期待通过这次讲座,能有更多人关注数字人文,关注《数字人文》杂志、网站(www.dhlib.cn)以及"大众号(DH数字人文),还有即将上线的璇琮数字人文聪慧平台,以及古联公司推出的OCR识别系统(ocr.ancientbooks.cn)。
当然,更主要是的是期待能够有更多的人投入到数字人文干系研究中,共同为中国的数字人文发展作出贡献。

(光明日报全媒体陈雪)