孙超主编:《数字人文与古代文学研究》

古代小说研究 2024-01-09 06:58:08

《数字人文与古代文学研究》,孙超主编,上海三联书店2023年8月版。

内容简介

该书是上海高水平地方高校“数字人文资源建设与研究”重点创新团队与上海师范大学数字人文研究中心共同推出的数字人文研究丛书之一,是我们初步摸索数字时代如何更好地进行古代文学研究和教学所获部分成果的结集。

全书分为四部分:研究现状分析、古代文学研究、古籍文献开发利用和相关教学探索。

第一部分主要是分析大数据时代古代文学研究发生的新变化:时空结合、历史现场还原、可视化呈现、文本情感分析及多模态情景生成等,认为这为传统学术提供了新观念、新视野、新方法和新思路,但同时也要防止学术异化。

第二部分探讨如何使用数据库、全息联通检索平台、可视化手段等进行古代文学研究,所选文章涉及个性化、地域性和传统议题,借助于数字人文技术,相关研究呈现出快捷、全面、系统、直观等新特点,对于提高研究成效、拓展新领域不无裨益。

第三部分通过古籍文献整理开发实例来显示古籍数字化给研究带来的诸多便利以及新视域,但同时也提醒研究者应注意它给研究带来的问题,从而正确使用。

第四部分选录了北京大学“古代文献研究中的数字人文方法”课程作业和我们“中国古代文学与文论”课程数字化教改方案,期待通过这些实践和设想引发人们对数字人文相关教学的关注。

目  录

弁言

第一部分  研究现状分析

古籍数字化与古代文学研究新变化  吴夏平

谁在左右学术?

——论古籍数字化与现代学术进程  吴夏平

古籍数字化与学术异化  吴夏平

第二部分  古代文学研究

全息联通、全文检索与传统文史的研究  陈维昭

数据库与古代文学研究  吴夏平

数字时代的台湾古文献整理与中国文学研究  李玉宝

古代文学研究专题数据库制作

——以历代女性忆传文篇名数据库为例  石晓玲

高歌与悲吟

——数字人文视角下的唐代金陵诗情感意象研究  顾翌昕 王嘉杰 郑语宁 陈静

第三部分  古籍文献开发利用

古籍数字化与文献利用  吴夏平

中国古代小说版本数字化和比对  周文业

数字时代的日本藏明别集整理  李玉宝

数字时代文史类研究生读者服务模式转变与应对

——以上海师范大学图书馆为例  赵龙

古代小说文献数字化的优化路径探索

——一种基于“条件生成对抗网络”(ConGAN)的新方法  林莹  施维加

第四部分  相关教学探索

“古代文献研究中的数字人文方法”课程作业选录  李林芳 朱旭东 邓思锐 邓秋怡

《经典释文·毛诗音义》毛郑音训的提取与分析  朱旭东

《尔雅》释诂、释言、释训三篇的简单检索及特殊标记工具  邓思锐

比对查找文本数据  邓秋怡

新文科建设背景下“中国古代文学与文论”课程融合创新及数字化实践    孙超

弁  言

孙超

“数字人文”无论作为技术、方法,还是作为观念、思维都已经成为当前人文学发展的一大趋势,掀起了人文学一股新的热潮。一般认为,数据、平台、团队是数字人文建设的三大核心要素。

上海师范大学数字人文网

在我国数字人文快速发展的时代潮流中,上海师范大学勇立潮头,2020年成立上海师范大学数字人文研究中心,2021年建成上海市“数字人文资源建设与研究”重点创新团队,目前已初步搭建“上海师范大学数字人文平台”,并开始招收数字人文专业博士研究生,相关技术开发与学术研究都在努力争取走在时代前列。

在目前我们开展的一系列工作中,进行中国古代文学科研与教学的数字人文资源建设与研究是一个重点。

我们所说的中国古代文学取其广义,认为至少应该包括中国古典文献、文学史、文学理论批评(思想)史。[1]从这一范围着眼,我们发现当前古籍数字化的研究成果最为丰硕、日趋成熟,文学史数字化的相关成果也在不断涌现、发展迅速,文论史数字化的相关成果不多、发展相对滞后。

我国古籍的数字化工作起步于上世纪70、80年代之交,迄今已有40余年的发展历史。由最初引介国外文献数字化的理论与实践到摸索制作“全唐诗”“文渊阁四库全书”“国学宝典”等电子检索系统,由开发单机版的单个数据库到建设可用于互联网的综合数据库(如“中国基本古籍库”“中华再造善本数据库”“瀚堂典藏”等),再到如今借助人工智能技术进行数据深度发掘的“智慧古籍平台”“汉典重光”“籍合网”等数字化综合服务平台,其发展真可谓日新月异,极大地满足了中国古代文学科研与教学的需要。

汉典重光

与之相关的古籍数字化学术研究也开展得如火如荼,论著蔚为大观。[2]目前研究已进入综合融通的新阶段,其标志一是全面探讨大数据技术(古籍数字化)与传统文献学的现代转型问题,学界正在形成如下共识:

传统文献学经由应用网络分析、文献计量、主题模型等文本信息技术之推助而革新了实践路径,增加了新功能,增强了研究的整体性和实证性,研究范式发生了现代转型[3];二是破除数字文献学与传统文献学的二元对立思维,指出应结合二者之优长,体系化地完成古籍开发和利用,尤其应以专业问题为导向构建综合性的数字人文研究平台[4];三是融合精读、泛读、远读等传统与数字化的阅读方法,结合最新数字科技,探寻数字古籍的最佳阅读方式,在文本标注方法、阅读可视化、自动摘要、自动标点、自动分类等方面进行优化研究[5]。

古代文献是进行古代文学研究的基础,古籍数字化必然带来古代文学研究的新变化。对于已有变化的利弊以及将来可能发生的新变化正是近年来学界探讨的一个焦点议题。

中国基本古籍库

大多数研究者积极肯定古籍数字化及数字人文对古代文学研究具有的重要推动作用,他们或从信息技术长于海量数据的存储、运算,尤其善于穷尽文献、发现知识,并推导出结论这一工作流程出发强调其与古代文学研究的契合处[6];或从古代文学研究以文学史数据、学术史数据为基础的角度指明当前由“数字化”古籍库向“数据化”资源库转型升级的发展方向,由此强调古典文学研究数据化的可行性[7];或期待学界能够充分利用古籍数字化的各方面成果,适时调整研究思路,改变研究方法以技术驱动研究、数据驱动研究[8]。

当然,也有少数学者指出古籍数字化、数字人文给古代文学研究带来了一些弊害,例如导致版本意识淡薄[9]、研究方法与主题的互动性减弱、人文学科属性遭到削减[10],等等。

整体来看,那些指出古籍数字化及数字人文弊端的学者并不反对将之运用于古代文学研究,而是希望趋利避害,持续完善古籍数字化资源、改良数字人文方法,更加有力地推进古代文学研究进程,同时避免将古代文学研究论文写成机械冰冷的“电脑体”。

目前数字人文应用于古代文学研究主要集中于文学地理学、经典文本分析和作家社会关系网络研究等方面。其中应用于文学地理学产生的成果最为丰富,产生的影响也最大。

唐宋文学编年地图

这方面的成果有的追求时空结合,运用数字人文技术开发文学编年地图平台,如2017年上线的“唐宋文学编年地图平台”、2018年上线的“学术地图发布平台”等,它们比较有效地解决了古代文学研究的资料离散和时空分离这两大难题[11];有的对具体作品进行综合的文学地理学研究,意图利用数字技术进行数据挖掘、并与GIS结合增加地图的标注范围,进而依托VR技术实现城池区划、布局、建筑等的立体呈现[12];有的进行具体作品创作历史语境的“现场勘查”,从而对作品意涵进行新的阐释[13];有的对诗人时空情感轨迹进行大数据分析、可视化呈现[14];有的绘制作家生平履迹、社会关系地理分布的可视化效果图[15];有的以古代叙事文学作品为样本建立叙事时空数字模型,可视化呈现发生在某一城市(地方)的“故事”[16],等等。

利用数字人文技术和方法对古代文学经典文本进行分析也取得了令人瞩目的成果,这是在古籍数字化越来越充分的情况下对古代文学文本研究的深度开掘。

其中基于人工智能技术的古典诗歌分析系统构建相对成熟,基于文献知识库的古代作家生平事迹研究、基于计算风格学的明清小说研究、基于复杂网络的文本与人物研究、基于文本深度挖掘的文体与文论研究等也正在积极摸索实践之中。[17]

《第二届中国古籍数字化国际学术研讨会论文集》

在我国,对于《红楼梦》的研究长盛不衰,数字人文技术和方法也被用于探讨这部经典小说的作者、风格、文体等问题[18]。作家社会关系网络研究与文学地理学关系密切,作家的家世、交游、仕宦及相关文学活动大多离不开对其所在地(发生地)的考察。

不过,作家的社会关系网络分析又有很强的独立性,成为数字人文介入的一个新的学术增长点。现有代表性成果或通过梳理明清进士家族中的文学家族将相关作家置于以血缘、姻亲为代表的世系图谱中考察他们丰富复杂的社会关系网络[19];或运用数字人文的方法和工具研究《全唐诗》中的应制诗,宏观探讨唐朝应制诗人社会关系网络与诗歌主题演化之关系[20];或通过数据化手段构建晚清女诗人的唱酬社交网络,破解近代诗史上的一大谜题[21],这些成果观念先进、理据充分,令人耳目一新。

相较于中国古典文献、文学史的数字化研究,古代文学理论批评(思想)史的数字化研究最为薄弱,成果数量不多,高水平成果更难得一见。这一现象应该引起学界注意,尽快加大研究投入,以提升中国古代文学数字化研究的总体水平。

《数字人文研究》

中国古代文学相关数字化教学的情况与对应领域的研究成正比例关系,古典文献教学数字化程度最高,古代文学史教学的数字化创新与实践在近年也不断涌现出新的成果,古代文学理论批评(思想)史教学的数字化程度最低,成果最少,亟待加强教学改革和课程建设。

我们正在进行的古代文学数字人文资源建设与研究建基于以上现状分析基础之上,希望能够摸索出独特有效的学术路径和教学方法,为数字媒体时代的古代文学研究和传承起到积极的推动作用。本书就是我们初步摸索所获部分成果的结集,分为四个部分:研究现状分析、古代文学研究、古籍文献开发利用、相关教学探索。

第一部分是研究现状分析。主要是在梳理古籍数字化发展历程的基础上分析大数据时代古代文学研究发生的新变化:时空结合、历史现场还原、可视化呈现、文本情感分析及多模态情景生成等,认为这为传统学术提供了新观念、新视野、新方法和新思路。同时也指出技术引领学术是数字化时代学术研究的最大弊病,应该努力趋利避害,防止学术异化。

《古代小说数字化二十年》

第二部分是古代文学研究。这组成果中有三篇文章涉及探讨数据库、全息联通检索平台与古代文学研究的关系,其指向是个性化和个体化的数字文献建设,以及如何将这些数字化文献(如“历代女性忆传文篇名数据库”)进行广泛共享。我们认为理想的目标是建立专门用于古代文学研究的可开放编辑的个人数字图书馆。

另外两篇,一篇介绍数字时代的台湾古文献整理情况并分析其与中国文学研究的关系,目的是希望引起学者对台湾相关学术动态的注意;一篇从数字人文视角研究唐代金陵诗的情感意象,这是一个复合型议题,对于拓展研究视域不无裨益。

第三部分是古籍文献开发利用。我们对于古籍数字化大表欢迎的同时也应注意到它给研究带来的问题,从而正确使用。例如将古代小说名著的各种版本数字化后进行比对,往往能够获得用人工方法不易获得的学术发现,但要注意结合人工方法以避免做出机械的错误论断。

为了使古代小说文献数字化的路径更为优化,我们编选的一篇论文专题探讨一种基于“条件生成对抗网络”(ConGAN)的新方法。另外,为了引导学者和学生更好地利用本校图书馆和日本的数字古籍资源,我们收入了《数字时代文史类研究生读者服务模式转变与应对——以上海师范大学图书馆为例》《数字时代的日本藏明别集整理》二文。

《中文古籍数字化研究》

第四部分是相关教学探索。我们选录了北京大学“古代文献研究中的数字人文方法”课程的学生作业,这几篇作业尽量保持原貌,并请授课教师简要介绍了该课程教学和作业的情况,意在通过传播优秀课程案例引导人们关注数字人文相关教学。另外选录了我们的“中国古代文学与文论”课程教改方案,介绍新文科建设背景下我们对古代文学相关课程融合创新及数字化实践的一些设想。

我们出版本书的初衷是抛砖引玉,希望引发更多关于数字人文与中国古代文学研究及教学的讨论,为切实推动相关工作贡献一点微薄之力。本书所收文章大多为新作,也有一些文章曾在报刊发表,文末均注明了出处,以示尊重和感谢。

《红楼梦版本数字化研究》

在匆促的成书过程中,在疫疠严重的情况下,我们得到了各方师友的大力支持,在此一并表示最深挚的谢意。由于编者水平有限,加之时间催迫,本书错讹之处势所难免,恳请方家批评指正。

2022年12月30日初稿

2023年3月27日修订

主编简介

主编近照

孙超,上海师范大学人文学院教授、博士生导师、上海市“数字人文资源建设与研究”重点创新团队成员。复旦大学文学博士,曾公派至美国哥伦比亚大学接受博士生联合培养,华东师范大学中文系博士后。主要从事中国小说史、中国文学批评史的教学与研究。著有《民初上海小说界研究(1912—1923)》、参编《中国大百科全书·文学卷(第三版)》、整理《木兰陂集节要》等,在《文艺研究》《文学遗产》《复旦学报》等刊物发表论文50余篇。近年来主持完成国家社科基金一般项目等课题多项,现主持国家社科基金一般项目、国家社科基金重大项目子课题各一项。曾获上海市研究生优秀成果(博士)论文奖、第二届上海高校青年教师教学竞赛二等奖、上海市育才奖等。

注释:

[1] 中国社会科学院文学研究所郑永晓先生曾从古代文学研究角度谈过这一应有的范围,见郑永晓、段海蓉:《古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授》(《吉首大学学报(社会科学版)》2020年第2期)一文。

[2] 1979—2009年的相关研究情况可参阅耿元骊《三十年来中国古籍数字化研究综述1979-2009》,尹小林主编《第二届中国古籍数字化国际学术研讨会论文集》,五洲传播出版社2011年版。

[3] 可参阅刘石、李飞跃:《大数据技术与传统文献学的现代转型》,《中国社会科学》2021年第2期;刘石《文献学的数字化转向》,《文学遗产》2022年第6期。

[4] 可参阅卢彤、李明杰:《中文古籍数字化成果辅助人文学术研究功能的调查》,《图书与情报》2019年第1期;李明杰、卢彤关于“文献整理学术传统对古籍数字化的参照价值”系列论文,刊于《图书馆论坛》2019年第4、5、7期;覃熙、欧阳剑:《数字人文视角的古籍数字化开发和利用研究》,《四川图书馆学报》2022年第4期。

[5] 可参阅于亚秀、李欣:《数字人文视域中的古籍文本标注方法研究——以MARKUS为例》,《大数据》2022年第6期;欧阳剑、任树怀:《数字人文研究中的古籍文本阅读可视化》,《图书馆杂志》2021年第4期;徐润华,王东波等:《面向古籍数字人文的<资治通鉴>自动摘要研究——以SikuBERT预训练模型为例》,赵连振,张逸勤等:《面向数字人文的先秦两汉典籍自动标点研究——以SIKU-BERT预训练模型为例》,胡昊天,张逸勤等:《面向数字人文的<四库全书>子部自动分类研究——以 SikuBERT和SikuRoBERTa预训练模型为例》,以上均刊于《图书馆论坛》2022年第12期。

[6] 可参阅郑永晓:《古籍数字化与古典文学研究的未来》,《文学遗产》2005年第5期。

[7] 可参阅王兆鹏:《古典文学研究数据化的可行性》,《文学遗产》2022年第6期。

[8] 可参阅郑永晓、段海蓉:《古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授》,《吉首大学学报(社会科学版)》2020年第2期。

[9] 可参阅郑永晓:《古籍数字化与古典文学研究的未来》,《文学遗产》2005年第5期。

[10] 可参阅苏文成、卢章平:《数字人文研究方法争议浅析——以宋词流派特征远距离阅读项目为例》,《图书馆论坛》2018年第2期。

[11] 详见王兆鹏、邵大为:《数字人文在古代文学研究中的初步实践及学术意义》,《中国社会科学》2020年第8期。

[12] 可参阅刘京臣:《大数据视阈中的文学地理学研究——以<入蜀记><北行日录>等行录笔记为中心》,《文学评论》2017第1期。

[13] 可参阅王兆鹏、肖鹏:《范仲淹边塞词的现场勘查与词意新释》,《文艺研究》2017年第2期。

[14] 可参阅陈曦东、毛凌潇等:《宋词中情感的时空特征分析》,《地理科学进展》2017年第9期;高劲松、张强等:《数字人文视域下诗人的时空情感轨迹研究——以李白为例》,《数据分析与知识发现》2022年第9期。

[15] 可参阅徐永明:《中国古典文学研究的几种可视化途径——以汤显祖研究为例》,《浙江大学学报(人文社会科学版)》2018年第2期。李菁、徐永明:《明代作家的空间分布与可视化分析——以<中国文学家大辞典·明代卷>为例》,《浙江社会科学》2022年第2期。

[16] 可参阅马昭仪、何捷、刘帅帅:《中国古典叙事文学的时空叙事数字模型研究——以<李娃传>为例》,《地球信息科学学报》2020年第5期。

[17] 具体情况参见刘石:《大数据技术与古代文学经典文本分析研究》,《数字人文》2020年第1期。近年古典诗词数字化分析的代表性成果有:杜晓勤《“中国古典诗歌声律系统”的研发过程和学术价值》(《石河子大学学报》2016年第4期),李飞跃《唐诗格律的统计分析及问题》(《文学遗产》2022年第5期),刘尊明、王兆鹏《唐宋词的定量分析》(北京大学出版社2012年版),毕旭《基于唐诗语料库的意象检索研究》(大连理工大学2006届研究生硕士学位论文)等。

[18] 相关论文有施健军:《基于支持向量机技术的〈红楼梦〉作者研究》(《红楼梦学刊》2011年第5辑),刘颖、肖天久《〈红楼梦〉计量风格学研究》,(《红楼梦学刊》2014年第4辑),叶雷:《基于计量文体特征聚类的〈红楼梦〉作者分析》(《红楼梦研究》2016年第5辑),朱东旭、严广乐:《基于LSTM的〈红楼梦〉文本风格分界点识别方法》(《智能计算机与应用》2020年第10期,等。

[19] 刘京臣:《大数据视阈中的明清进士家族研究——以CBDB、中华寻根网为例》,《北京大学学报(哲学社会科学版)》2019年第4期。

[20] 宋雪雁,刘寅鹏:《唐朝应制诗人物社会关系网络及主题演化研究——基于<全唐诗>的分析》,《兰台世界》2021年第10期。

[21] 严程:《顾太清交游网络分析视野下“秋红吟社”变迁考》,《山东社会科学》2018年第7期。

0 阅读:19