您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页关于制定古籍数字化标准的思考

关于制定古籍数字化标准的思考

来源:化拓教育网
图书馆理论与实践 信息管理与信息学 2010(2) ● 已俊元(南京图书馆,南京210018) 关子索崂芭古籍数字化标准的思考 [关键词]古籍资源;数字化;标准 [摘要】论文解释了古籍数字化标准 的概念,论证了制定古籍数字化标准的必 要性,并就制定古籍数字化标准提出了几 点思考。 【中图分类号]G250;G255.1 [文献标志码]A [文章编号]1005--8214(2010)02--0050--03 2007年1月,发布了《关于进一步 加强古籍保护工作的意见》,文中明确指出:“进一步 加强古籍的整理、出版和研究利用。制订古籍数字化 标准,规范古籍数字化工作,建立古籍数字资源库。” 2008年7月28日,在全国古籍保护工作会议上文化 部副周和平讲到:“要制定古籍数字化标准,加 快古籍数字化工作,逐步为公众提供古籍全文数字化 阅览服务。”再综观国内外专家学者的意见和专业机 构的做法,可以断定,古籍数字化已经成为21世纪 古籍整理的主流,代表着未来古籍整理、开发、利用 的发展方向,但在我国目前还缺乏相应的工作标准, 需要业界人士进一步的研究、探索和制定。 1 古籍数字化标准的概念 《标准化与相关活动的基本术语及其定义(1991 年第六版)》对“标准”定义为:“标准是由一个公认 的机构制定和批准的文件,它对活动或活动的结果规 定了规则、导则或特性值,供共同和反复使用,以实 现在预定结果领域内最佳秩序的效益。”标准是标准 化活动的结果,它虽然不是商品,却能加速商品的生 产流通,提高效率和管理水平,保证产品、工程、服 务的质量。所谓古籍数字化标准,简言之,就是在古 籍数字化过程中以达到最佳有序化程度为目的,共同 遵守的准则和依据。 2制订古籍数字化标准的必要性 从2O世纪8O年代起,我国地区开始古籍数 字化工作,网上可见的中文古籍数据库共有7O多个。 ・5O・ 但令人遗憾的是,至今我国没有相关的标准和规范, 造成了目前古籍数字化在概念上百家争鸣、在开发理 念上千差万别、在质量上参差不齐和在标准上各自为 政的局面,给使用者带来了不便,也严重困扰了古籍 数字化工作的健康、快速、协调发展。 2.1认识上概念模糊 经过20多年的努力,我国古籍数字化工作取得 一定成果,建设了一批优秀的古籍数字化产品,比 如:国家图书馆的碑砧菁华、西夏碎金、敦煌遗珍、 数字方志以及甲骨文、永乐大典等,上海图书馆的名 人家谱库,天津图书馆的古籍善本选粹,北京大学的 中国基本古籍光盘库等等。但是由于缺乏统一领导和 工作标准,目前官方或学术界还处于探索阶段,仍然 没有一个准确、统一的概念界定,导致古籍数据化程 度深浅不一、参差不齐。 2.2储存上格式众多 当前数字化古籍的文件格式可谓五花Jk ̄-J,种类 繁多,除了常见的txt、doe、hind格式外,还有exe、 pdf、wdl、ebk、edb、peb、sep、ifr、xeb、pdg、nlc格 式,以及基于unicode、仓颉码、B 码或其他字符 集,这些不同格式的文件,往往需要各自专门的阅读 器才能进行浏览,相互之间难以兼容,给读者造成了 不少麻烦,也给我国古籍资源的共享制造了隐患。[1] 2-3检索上平台各异 一般数字化资源大多需要纳入数据库,才可调用 和检索,但各家所用数据库很不统一,如access、 mysql、sqlsever都有,给跨库检索带来极大不便。 2.4方式上千差万别 目前,古籍数字化的基本方法大体包括全文数据 库、全文图像、图文三种方式,但在检索功能、古籍 原貌、研究效果、方便利用等方面存在着差别。 2.5协作上缺乏沟通 由于分散作业、各自为用,我们至今无法完整地 了解哪些古籍已经被数字化,更无法知晓其数字化的 格式、利用的程度等情况,这一方面造成了数不清的 图书馆理论与实践 信息管理与信息学 集全文数据库方式和全文图像方式的优点于一身,且 重复建设,另一方面又使这些有用的学术资源无法充 分发挥其作用。 荷兰国家图书馆在数字化文献领域领先世界,该 馆保存部主任希尔德・范韦恩加德指出,数字化产品 能否长期保存和方便利用,需要在数字化开始时就考 虑选择什么样的文件格式(file format)、制作标准 (production settings)和字型等。l2]通过以上分析不难 又避免了各自的缺点,是古籍数字化的最佳方式,也是 古籍数字化的发展方向。中文大学的汉达古籍资 料库、北京大学古籍数字图书馆的古籍拓片图像数据 库和古籍拓片全文数据库,都是先将古籍和拓片进行 扫描加工,建成图像数据库,之后逐步通过OCR技 术转换进行全文数据库建设,最终实现基于内容的全 看出,标准化是古籍数字化的基础,直接影响古籍数 字资源的制作质量和查询服务的效果。只有不断采用 新技术,统一新标准,确立古籍数字化的统一著录格 式和标引方法,研制与用户要求相匹配的系统,数字 化的古籍文献信息才能在不同的计算机系统之间交换 数据,才能实现用户和系统以及系统与系统之间的有 效沟通,确保数据库的使用性能。 3制订古籍数字化标准的几点思考 3.1统一概念认识,明确古籍数字化的真正内涵 古籍数字化是从保护和利用古籍的目的出发,采 用计算机技术,将常见的语言文字或图形符号转化为 能被计算机识别的数字符号,从而制成古籍全文数据 库,用以揭示古籍文献信息资源的一项系统工作。古 籍数字化不等于对古籍进行扫描后在计算机上浏览, 其科学内涵是必须对古籍原典进行具有计算机浏览、 检索、利用特点的深度开发。l3]基于这个概念,我们 可以将古籍数字化的基本性质定位为:古籍数字化是 对已存古籍的再现和加工,属于古籍整理的范畴,是 古籍整理的一部分,最终达到开发利用和保护的目的。 3.2统一工作宗旨。明确古籍数字化的基本特征 古籍数字化,主要是将古籍文献的内容转化为数 字形式后移植到新的载体上。应该讲,除了检索方法 外,它不是古籍内容的再创造,而只是载体形式的变 更,因而保持古籍内容的原始性至关重要。我国历史 上每一次古籍文献载体形式的变更或同一载体的移 植,总会造成一部分文献内容的失真,给古籍考证带 来诸多麻烦,校勘家和校勘学的形成就是很好的例 证。现在古籍文献数字化采用高科技手段,其移植 数量之大、速度之快远胜于历史上任何一次文献载体 的变革,所以保持古籍文献内容的原始性应是其首要 的标准,且同时必须具有四个基本特征:(1)文本字 符的数字化;(2)具有基于超链接设计的浏览阅读 环境;(3)具有强大的检索功能;(4)具有研究支持 功能。[ ] 3.3 统一方式标准,明确古籍数字化的基本方法 比较三种古籍数字化的方式不难发现,图文方式 文检索。[ 3.4统一存储格式,明确古籍数字化的技术标准 文件格式标准的统一,是当前数字图书馆标准化 建设的重要目标。从古籍数字化的长远目标而言,业 界主要机构要联合起来,制订出统一的文件存储格 式。这种格式既要适合汉字尤其是繁体字的存储,又 能具备足够强大的加密功能,以保护各自的知识产 权。同时为保证数字化古籍的科学、严谨、规范,这 种文档格式还应该能够方便地进行汉语拼音标注和人 名地名标记。另外,这种文档格式特别应该有利于全 文检索。考虑到处理古籍文献时需要处理海量图片, 如何制订一种具有较高压缩比,又能清晰地再现原始 图书页面风貌的图片格式便显得尤为重要。软件的选 用主要根据古籍数字化最终形成的格式而决定。就目 前而言,“书同文数码翰林”软件可以说是较成熟的 古籍数字化处理软件。用该软件制作的“四库全书” 及“四部丛刊”电子图书,文本页面保持了原书的竖 排格式,增强了古籍阅读的真实感,基本实现了图文 关联和阅读检索及全文检索的功能。 3.5统一数据形式,对古籍数字资源进行元数据标引 所谓的统一,是基于目前图书馆界和国外学术资 料信息化的普遍经验,将资源对象的语义信息统一为 元数据格式。对古籍数字资源进行元数据标引主要有 以下好处:(1)它不必对现有资源进行格式改造,只 是加以外部属性描述;(2)将为全部古籍数字化资源 的调查和格式转换或再度开发创造统一的数据环境 (元数据元素集中定义了相关标识字段)。随着学术需 求和开发建设的不断发展,可以想象,对现有数字古 籍资源做元数据回溯标弓l也将势在必行(类似对图书 馆馆藏的回溯标引一样)。 3.6统一汉字编码,完善汉字字符代码集 古籍数字化,首先要将过去抄写、印刷的东西转 换为计算机可读并能在屏幕上准确再现的代码。目前 业界大多采用Unicode作为文字处理的标准,Unicode 已经定义了70000多汉字,因此,汉字字符不足以及 编码混乱的问题已基本上得到了解决。但是,古籍数 ・51・ 图书馆理论与实践 信息管理与信息学 2010(2) 字化的内容并不只是字符的转换问题,要实现运用数 字技术与现代信息处理技术对传统文献通过信息加 工、信息重组达到方便使用、知识挖掘的目的,实现 数字时代对中华传统文化的继承与弘扬的目的,这才 传统学术方法与现代科学技术的结合,需要培养一批 既懂得古籍整理又精通计算机技术的复合型人才,才 有能力决定实现古籍数字化的基本路向和基本框架, 在既定的框架内实现古籍数字化的目标。 [参考文献] [1]毛建军.古籍数字化的概念与内涵[J].图书馆 理论与实践,2007(4):82—84. 是古籍数字化工作最主要的内容和最重要的目标,而 要达到这个目标,汉字的处理仍然是一个基础的和关 键的问题。书同文公司在其开发制作的电子版《四库 全书》中能较好地处理冷僻字和异体字,但这些字符 一旦脱离这个系统,例如被复制到字处理程序中,便 [2]孙琴.两大中文古籍数据库比较研究[J].新世 纪图书馆,2007(1):52—54. 会显示乱码,可以说仍未真正解决这个问题。所幸的 是,国家有关部门已经意识到该问题的严重性,《国 家“十一五”时期文化发展规划纲要》在“重大文化 产业推进项目”中列有“中华字库”工程——建立全 部汉字的编码和主要字体字符集,为解决这一问题提 供了支持。 3.7提高古籍数字化人才素质 [3]王立清,董梅香.港台地区古籍数字化现状分析 及启示[J].图书情报工作,2006(8):87—89. [4]姚伯岳,张丽娟.古籍元数据标准的设计及其系 统实现口].大学图书馆学报,2003(1):l7—22. [5]李致忠.《古籍定级标准》释义[J].图书馆工作 与研究。2oo8(1):77—81. 目前,古籍数字化多数项目的开发属于单一人员 或机构的个体行为,缺乏有效的人力资源的组织与控 [作者简介]姚俊元(1965一),男,南京图书馆馆长 助理。副研究馆员。 制,很多古籍整理专业人员不懂电子技术,计算机技 术人员又缺少古籍知识。需要指出的是,古籍数字化 属于古籍整理和学术研究(或称校雠学)的范畴,是 社; [收稿日期]20o9—08—12 [责任编辑]张京生 动态・资料 社挚 g 壮 扭 暑 霹 —旃 霹 擤 辑 霹铲孵 g 祭壮 霹 啦霹 gq;导; 啦舞霹铲 宁夏图书馆入选第三批宁夏回族自治区区级“爱国主义教育基地" 最近,经宁夏回族自治区宣传思想工作领导小组 审核批准,宁夏图书馆、宁夏邮政博物馆等21个单 位被确定为第三批宁夏回族自治区 爱国主义教育 基地 。 红色文化名片,进一步增强红色旅游的吸引力和竞争 力,努力打造有宁夏特色的。红色名片 ;要进一步完 善分级分类管理,逐步健全以国家、自治区级基 地为龙头,以市级基地为骨干,以县级基地为主题的 爱国主义教育基地 建设网络。 据悉,2009年,宁夏盐池县烈士纪念园和同 2月8日下午,在宁夏图书馆南门广场举行了。爱 国主义教育基地 授牌仪式。宁夏回族自治区常 委、宣传部杨春光出席授牌仪式并讲话。宁夏回 心县陕甘宁省豫海县自治成立大会旧址入选中 宣部公布的第四批全国爱国主义教育示范基地。目前宁 夏已设立国家级爱国主义教育示范基地4个,自治区级 爱国主义教育基地40个,市、县级爱国主义教育基地 68个。 (京生) 族自治区宣传部副房全忠宣读了宁夏第三批 爱国主义教育基地 名单。宁夏图书馆馆长丁力代表 被授牌单位讲话。 杨春光在讲话中指出,全区各级爱国主义教育基 地要始终坚持以爱国主义为核心,把弘扬和培育民族 精神作为一切工作的出发点和落脚点,紧密结合不断 发展的形势,卓有成效地开展工作;要不断创新工作 方式方法,充分利用各种现代科技手段,进一步扩大 爱国主义教育的覆盖面;要重点突出未成年人群体, 不断增强教育基地的吸引力和感染力,真正使爱国主 义教育基地成为未成年人的 精神家园 ;要全力打造 ・52・ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务