社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网

三分快乐8—好运五分快乐8官方

古籍整理中数字化技术的应用实践与展望

杨贤林

  1 古籍资源整理现状及特点 

  古籍文献是我国历代保存下来的历史文化瑰宝, 它既反映了我国在人类社会发展进程中的历史地位和作用, 也是研究我国历代社会政治、经济、军事、科技、文化、外交以及社会发展变化等方面的最重要的原始材料。古籍资源的主要特点表现在以下几个方面:首先, 现存古籍中原稿数量非常有限, 只有少量明朝著作、清朝著作还存有原稿, 而明朝以前的所有古籍原稿均不复所见, 所以大多数古籍无法应用现代技术进行排印、校对, 只能通过专业的古籍整理技术按照既定的工序进行整理、出版;其次, 古籍资源存在诸多错漏问题, 得以流传至今的古籍多为刻本或传抄本, 所谓刻本即采用雕版印刷而成的书籍, 还有一些为活字印刷的版本, 但不管是刻本还是活字本, 其文字上均有诸多错漏, 而抄本中的错误则更多;最后, 流传至今的古籍多数均不只一种版本, 不同版本的内容可能存在出入。 

    

  2 古籍整理中应用数字化技术的可行性 

  尽管古籍整理所属的历史学和应用计算机所需的计算机专业分属两个不同性质的学科, 表面看上去毫无联系, 但其实二者的深层思维方式有着诸多共同点。比如历史学研究过程中要求研究者具备较强的逻辑推理能力、抽象思维、归纳能力, 同样这也是计算机学科的基本思维模式;而且研究方法与计算机科学解决问题的方法在很大程度上具有相似性。因此现阶段在古籍整理过程中应用比较成熟的数字化技术已经有很多种, 常见的包括以下几种:首先是电子录入, 即利用某种方法或工具把古籍内容输入计算机中, 现阶段出版界传统的铅字排版技术已经完全被电子录入所取代, 而电子录入的主要内容包括文字、图像、图文混合等。其次, 电子校勘, 利用计算机可以将所有校对对象的全文在瞬间查遍, 然后根据程序设定好的规则将文献中的错误、疑问之处做出迅速定位, 可以精确到卷、节、行、字, 这样的工作效率是令人工校勘难以企及的;而软件联机无纸校对则是电子校勘技术中应用最广泛的手段, 该方法是基于计算机显示器进行无纸校对, 并且在校对过程中可以将同一古籍多种不同版本的图文比较及文文比较。再次, 电子统计, 该技术在现代文献计量学中的地位十分重要, 而在古籍数字化整理过程中, 主要利用电子统计技术进行字频分析, 不过近年来又开发出一种新技术, 即定量分析。最后, 古籍整理中, 类书、家谱、方志等是比较特殊的资源, 而将这类资源进行数字化处理意义重大。比如建立类书资源数据库可以将丰富、系统的数据优势充分发挥出来;电子家谱则把常见的文字符号、视频符号等转换为数字符号, 再制成家谱数据库, 将家谱中相关信息资源通过数字化的形式保存起来, 并加以利用等。 

    

  3 古籍整理中数字化技术的具体应用 

  3.1 利用文本挖掘技术实现古籍的深度分析 

  文本挖掘是数字挖掘技术的一个新兴分支, 其从大量文本集合、语料库中抽取知识团, 这些知识团事先未知但可理解, 且有潜在实用价值, 即文本数据库中的知识发现。文本挖掘技术主要应用于古籍作品的篇章分析, 比如情感关系、人物关系等, 通过一系列分析对古代文学作品做更深层次的研究。现阶段古籍的文本数字化水平已经比较成熟, 后续将向着文本的深度分析方向发展。传统研究古代文学作品的方法对研究者的专业素质要求较高, 且需要占有大量文本, 因此很长一段时期内该领域对权威及第一手文献的依赖性过高。但利用数字化技术可以彻底改变这一现状。利用文本挖掘技术可以基于整体的角度分析海量古籍文献, 从而针对某个时代、某个风格流派及某个作者进行整体研究。比如史籍类古籍, 其篇幅浩大且有着复杂的人物关系, 可以利用文本挖掘技术分析同类史籍作品, 从而还原一个更加准确的历史真相, 对历史人物之间的复杂关系进行梳理。 

    

  3.2 利用GIS技术构建古籍数字地图资源共享平台 

  GIS系统即地理信息系统, 其应用于图书馆中可以为图书馆数字资源提供一种全新的检索方法及入口, 基于GIS技术的古籍数字化地图资源共享平台, 可以体现出地图的视觉化效果, 并具备地理分析功能, 通过信息划分方式与数字图书馆有机结合起来, 不仅可以获得时间、空间方面的直观检索集, 而且还可以最大程度上弥补文本检索的不足之处。不过目前我国数字图书馆领域应用GIS技术还不够成熟, 国外及我国港台地区有较多的成功案例, 比如中国台湾中央研究院开发的中国历史文化地图系统, 其空间范围选择整个中国, 时间范围包括原始社会到现在社会的整个中国历史, 以中国文明为内涵, 实现系统应用环境的整合性。 

    

  与现阶段静态的古籍数字化技术不同, 基于GIS的古籍数字化地图资源共享平台最大的特点即是其动态性, 它利用图表化、可视化、集成化、数字化的表达方式将古籍文献纸质史料呈现出来, 系统具备数据统计、文献检索及自动生成地图等功能, 可以通过平台检索文学家的生平及作品, 对其分类、统计, 还可以将统计结果通过电子地图的形式展示出来。电子地图中可以将某个作家的生卒地点、活动地点、写作作品背景地、跟哪些历史名人交游互动的地点等全部显示出来, 并以时间发生顺序将其行踪路线图自动绘制出来。 

    

  3.3 利用文本可视化技术构建古籍数字化知识体系 

  所谓文本可视化技术即是在分析文本资源的