全国『地方志』全文数字化工程全面报道
★“国图八考”——我国最大全文数字化工程启动
上个世纪80年代,人类开始了一项具有深远历史意义的巨大文化工程——数字化图书馆。
将大型图书馆中的海量各种文化资料数字化,再将这些数据管理起来,通过国际互联网向全世界发布。人们在地球的任何地方,都能方便地全文检索到自己所需要的资料,既可浏览又可下载,大量的信息资源得以迅速地传播,从而促进全世界的文化繁荣和交流、各国家的经济发展、社会的进步、政治的文明、科技的迅速创新发展。这就是数字化图书馆工程。
在发达国家,分期、分批地开始图书馆数字化工程已有十几年。一个国家的图书馆数字化工程的发展程度和水平,已成为衡量一个国家信息化水平的标志。令人遗憾的是,目前尽管中国上网人数已达8千万,已
成为世界上仅次于美国上网人数的第二位国家。但是,国际互联网上却是英文的世界,中文资料都极少。当然,汉字的特殊性,也是信息资源极贫乏的原因之一。
我国已将国家数字化图书馆工程列为第十个五年计划的重点工程。在这期间,总投资额达36亿。其中投资12.35亿元的国图二期工程和数字化图书馆工程,将在明春开工,预计2007年投入使用。建成后将居亚洲第一,世界第三。国家数字图书馆建成后,将成为世界最大的中文数字信息资源基地和数据库,国内最先进的国际网络服务基地,通过国际互联网,将极大拓展国家图书馆的服务内容。一项迎头赶上世界先进水平的大型数字化工程已经开始。
国图面对历史悠久、内容浩瀚的汉字资源,做扫描版当然很容易,但它数据存量巨大,不能全文检索,却是致命的缺陷。真正的数字化工程是全文化,当然有它特殊的难度。如何启动这项工程呢?建国后的中文资源,几乎都有版权问题,如启动这部分资源工程,首先要解决几百万件的著作权问题,其艰难程度可想而知。专家、学者们经过反复讨论、研究。决定先从建国前的全国各地的《地方志》开始。
《地方志》是翔实记载全国各地的山川、河流、矿藏、经济、文化、地理、气候、人物、历史、政治等的小百科全书。把全国各地的《地方志》汇总起来,就是一部前所未有的中华大百科全书。它对当今全国各地的经济建设、文化建设都会有一定的参考价值。譬如,形成于6500万年,震惊世界的广西世界奇观乐业天坑,就是根据宋代广西地方志《乐业奇观图》发现的。许多的矿藏、地下水、寺庙遗址等的发现也来源于当地的方志。国图珍存的这些几百年来各地的《地方志》,有330多万页,近20亿字。由于年代跨越久远,各地编纂水平差距很大,涉及生僻字、异体字、讹字、忌讳字,甚至少数民族文字等极多。刻印本、手抄本,各种拓本都有。版式更是五花八门。将这些年代久远,资源海量、繁杂的《地方志》全文数字化,却使专家们犯了难。
从2002年起,国图开始了挑选承担这项巨大工程单位的实际考察。2002年8月中,国家数字化图书馆工程专家组组长和负责《地方志》数字化的副馆长慕名来到了北京中易电子公司。开门见山,中易公司先向客人们演示了独自开发的、当今世界最大的《计算机全汉字信息处理系统集成》的大型中文系统。它能轻易地处理中华民族五千年所有的十万以上的汉字信息。中易递给专家一本近1寸厚的16开打印稿说,这里面有十万汉字,全部做成了曲线字模,全部进行了编码和完成了支持系统,您们随便挑选任一汉字,我们都可以用《郑码》立刻从十万汉字中检索出来。 专家们随便挑了7-8个根本不认识的生僻字,操作员都准确无误的轻松检出。专家们赞口称奇。中易告诉他们,别看这短短几分钟演示,却是以郑易里教授开拓的,三代人半个世纪的努力成果。目前只有中易可以做到。它已荣获国家科技进步奖和世界华人发明大奖。接着公司又演示了能支持71000个国际标准汉字,完全执行的是国际标准的《超大型中文网络国际应用平台》。它的代表作是将已有47000多字的《康熙字典》,完全实现了全文数字化的检索。看到已经有了成熟的产品,专家们更高兴了。喜不自禁地说,这正是我们所要找的,国图的数字化网络系统平台,必须是全文化的。 不但要支持大量汉字,还要支持多文种统一平台。更重要的是要有支持4字节的搜索引擎和全文检索。不但要面向全国,而且面向全世界。让全世界的读者都能方便地检索到所需要的内容。
现在,我们把国图专家这第一次的考察,称为“一考”。
没过几天,国图邀请中易公司去国图演示。这意味着“二考”开始。
这一次,国图领导、专家、技术人员,到了30多位,中易公司不但演示了“一考”的项目,又演示了即时造字系统和数字化的同屏对比,及二录二校等软件工具。演示后,专家们又提出了许多技术问题。公司技术人员对答如流。
不到半个月,国图准备了几份18页共1万字的《武功县志》。分给几家著名的做中文信息处理公司。要求按原版式,原内容,做出样张来。这“三考”,有点像俗话说的,是骡子是马拉出来蹓蹓的赛马味道。中易公司两天完成。不但拿出了精美的样张,还写一份这18页《武功县志》用字等方面的技术报告。仅这18页县志,就有5个字在国际71000个汉字标准之外。估计,这330万页《地方志》,要有能容8-9万的汉字平台才能支持。国图看到样品后,虽没动声色,但是中易后来才知道,在短时间里,能按要求完成这18页样张的只有这一家公司,完成了“三考”。
18页样品关是过了,国图仍不放心。小批样品可能做的好,批量大了会怎么样?于是,又准备了近3000页,100多万字的《京畿地方志》。以“中试”批量“四考”中易。2003年1月末,2800多页的试样提前交卷。同样的符合要求,同样的精美。同时,中易又拿出了这100多万字的用字等方面的技术报告。指出了这“四考”共用字多少;在国家标准中有多少字;在国际标准中有多少字;超出国际标准的有多少字;准确率能达到多少。 条条分明,有实有据。专家们一看,心里明白,没有大型的检索系统,没有快速准确的检索法,是统计不出这些数据的。
屡试屡验的国图原该放心了,可是由于工程量太大、太复杂、太重要。因为,这首期的《地方志》工程开始,以后的数字化就都要做在这个大型平台上。万一有所闪失,责任重大。 于是2003年3月,派来的第“五考”的考官是国图的系统软件和管理系统的首席专家。 他要考察的是从整体的系统、容量、严密性、先进性、国际性、通用性、可持续发展性等方面内容。其实类似的考察,中易早在2001年11月,将这个《超大型中文网络国际应用平台》申报《国家973信息技术与高性能软件规划项目》立项之前,我国科技部聘请的IT领域首席科学家顾钧教授已经亲临考察过了。他敏锐感到这个创新项目的科学价值和发展应用的前景。不但很快地批准了立项,而且亲自兼任了这个项目的组长。当然,国图这第“五考”,又顺利通过。
相隔几天,国图又派来的是国图中文信息标准化的专家。这位专家年龄虽不大,但从大学毕业分配到国图,已有20多年研究和参与制订国内外中文信息标准的经验了。 他的考察目标是这个网络系统平台的规范性、标准性和国际化。由于中易公司是中国标准技术开发公司的二级公司,参与制定国内外中文信息标准也是多年的行家。但在这位更资深、更专业的国图专家面前,也像学生在回答老师的提问一样,详细、谨慎地回答和演示他的任何一个问题。由于中易承担国际标准用字的最后总结、字模提交的任务,所掌握的资料是国际标准的最新、最正确的文稿。国际Unicode标准委员会2000年发布的标准3.0;2003年发布的4.0版本和即将出版的IOS/IEC国际标准样本都采用的是中易字模。中易将这些最新的标准成果,已直接用在开发的网络平台上,首先提供给国图使用。这无疑令“六考”的考官非常满意。
“非典”过后,国图第二次约中易到国图演示和专家答辩。原来,国图这一年,除了中易公司,还考察了在中文信息领域有专长的几家公司。这“七考”是让考察这几家公司的专家、领导、工程技术人员,给这些公司一个综合性的对比和评价。这次中易的答辩时间远多于演示的时间。而且中易也提出了一些积极的建议。将近一年的多次考察,国图不但对中易的中文信息处理技术非常赞赏,而且对中易领导人的事业心、人品、诚信程度、承受大型工程的组织能力、今后合作相处的难易程度也做了全面的考察。因为这些方面,在大型工程的长期合作中,可能会比技术更重要。而这些方面,只简单地使用招标方式,或只有一两次的接触是考察不到的。
转眼又到了流火的七月,国图又派了7位领导和工程技术人员到公司考察。他们这次感兴趣的是公司的人才实力、组织结构和详细地察看了公司的一条实验数字化工程的生产线。 亲眼看一下数字化工序间如何衔接,如何控制质量,如何校对和保证正确率。如有缺字,如何能快速补上,进入生产线。又提出,如果把这大工程交给你们,你们如何组织扩大生产线,如何使这个管理强度很大的工程顺利地进展。也就是考察大规模实战的能力。到了7月中旬,国图一位领导来电话,我们刚刚开完馆务会,经过了前后8次的考察,决定将国图首期数字化工程交给你们公司来做。主要是两点原因:第一,你们多年来把发展中文信息产业当做事业来做,而不是当做一个项目,一笔买卖做。交给你们有这么强的事业心的公司来做,我们放心。第二,你们的技术全面,有能力对付像《地方志》这样庞大而复杂的工程!中易领导听到这几句既理解又充分信任的结论,不禁热血上涌,眼泪夺眶而出。
2003年9月12日,双方正式签约。在双方的协议书中,国图两次强调, “全部数据产品建立在《国家973信息技术与高性能软件规划项目》的《超大型中文网络国际应用平台》之上”。为实现多文种统一处理,全面支持国际互联网,实现全球浏览和检索服务打下坚实基础!
国图这“功在千秋”的首期全文数字化工程,是当前国内外最大的全文数字化工程。但这还只是一个基础工程的开始。它也孕育着一个使中华民族五千年灿烂文化走向世界、走向千家万户的开始。随着人类信息技术的发展,一个伟大的民族,一个历史悠久的国家文化的数字化工程是没有止境的!它的历史意义和价值也是无法估量的! |