八亿字的《四库全书》全文数字化工程在京完成

    誉为与中国古代的万里长城,京杭大运河比美的最大“文化工程”,《四库全书》的全文数字版在北京完成,这次完成的《四库全书文津阁》全文数字版是商务印书馆委托北京中易公司完成,完成后的数据只存有半个手掌大的硬盘中。

    据悉,在上世纪90年代,《四库全书》曾出版过数字版,由于当时的数字化技术水平所限,那是一次不正规,不标准,不完整尝试产品。

    《四库全书》的全文数字版建立在中易公司完成的“国家973信息技术与高性能软件项目”大型标准的中文信息处理平台之上,符合世界文字信息的中国和国际统一标准,全文数字化的工程建立的国际互联网版,还能直接印刷成书和电子版CD,即“复合出版”。

    据介绍,将这浩如烟海、包罗万象的八亿字的《四库全书》数字化,不但备俱艰难,而且也要求高深中文信息处理水平。《四库全书》虽然抄写的清晰、整齐,但是,满目的生僻字、异写字,辩析字、讹误字、避讳字、古今字、通假字。这些字虽使用频度不高,但总体数量非常庞大。往往使现在中文信息处理水平和操作人员束手无策。因为首先要有对这大量生僻字、异写字、讹误字识别的文字功底,要把它们都归结在中国和国际中文信息标准字义,字形之上,也就是文字的标准化、规范化。它的版式由于是手工绘制,也是五花八门,奇形怪状,在数字化中,无论是数据导入,字图切分,校对都异常困难,双列小字已属平常,但还时常出现四列小字,线上字等和大量乾隆皇帝的亲自批注。各式表格、绘图,都是当代中文信息古籍处理所没遇到过的难题。除了近8亿汉字,还有大量图表,绘画、古乐谱、满、蒙文……。其中可与“清明上河图”比美,但还要大几十倍的“八旬万寿盛典”图。各种阅兵图、布阵图等等珍贵画作。这样完成的文字图形数据集合,这一切都要符合“国家973信息技术与高性能软件规划项目”标准技术要求,才能使全世界用户,不论在什么地方,用什么计算机,用的什么计算机系统都能浏览和检索才能传遍全世界。

    北京中易公司集14年在《文渊阁》数字化基础,用两年多时间改版成《文津阁》版。而关键的是对这两个相差3年完成的版本,逐字逐句将8亿字的细密校对。

    近两年来,受疫情影响,数字化工程转为线上进行,每天几乎24小时间,询问,比对、设计、补充,克服一个个困难,殚精竭虑,精心细作,如期将错误率控制在万分之二左右,圆满完成。

    数字化后,还要有“管理发布系统”的设计和支持,才能浏览和检索这个大型古籍管理发布系统。中易经十几年的研发的“古籍”管理发布系统设计,已为国家级古籍、家谱等地方志许多项目发挥了重要作用。但面临《四库全书》这样庞大复杂工程,仍有许多难题需要解决、创新。比如现有的众多有名的门户网站,都是在几千较常用汉字中快速搜索,它们主要要求是支持同时使用客户量巨大。而四库这个系统要求检索的汉字范围要扩大10倍达7—8万汉字,并要求检索速度在1秒之内。比如在四库中的“医家类”,有4千多万字的大量古代医书。在“管理发布系统”要搜索一味中药,如“黄连”,要求它能很快地检索在这几千本,4千多万字的古代医家书中,搜出“黄连”的药性,不同产地名称、特点,有多少种药方中使用过。用过多少次?一一检索出来。这就要求设计这个新型“搜索引擎”功能格外强大、快速、准确!

    近百年来,众多名人,官员,专家多次呼吁影印《四库全书》,以求扩大读者,以求古为今用。但由于种种原因都没成功。直至上个世纪80年代由台湾商务印书馆才完成了它的文渊阁四库全书的影印版。尽管压缩成每页上下两版,在其完成后,也达每册16开本,约1寸厚的1500册。所购者国内外大图书馆、资料馆也是珍惜异常严加保护看管。又从完成的近300年,只有原故宫图书馆长陈桓先生一人,近水楼台,用10年时间,看过一遍。以后研究四库的众多专家学者,只是阅读了这1500册的片断。所发表的研究文章也很局限。

    在“康乾盛世”的乾隆三十七年(1772年)由乾隆帝亲自主持下开始全国收搜古籍,进行筛选,编辑,共12237种,集中360多位高官学者编撰,3800多位高手抄写,耗时13年编成。分经、史、子、集四大部,故名《四库》。共收录3462种图书,共计79338卷(相当明永乐大典3.5倍)。在电子版的数据量上,是海外相当同期的《大英百科全书》1000倍。全书共36000余册,约8亿字,其庞大浩如烟海。《四库全书》从“经部”开始的“易类”,就有2000多万字,详细介绍从《易经》也称《周易》约形成公元前11世纪的西周初年,原是签占用的工具书。这种人类文明轴心期产生的经典,正如其他文化元典一样具有跨越时空的力量。寄寓着深邃的预知未来的智慧和哲学原理的思维方法,使得《周易》生发和影响了整个中国文化的传承。从中华文化之顶端中华文化之源的各个方面,简释了中国传统哲学中的辨证唯物论思维传统。它的本体论和认识论,道德论的统一。其中的哲学思想在17世纪传入欧洲后,受到启蒙思想家的大力推崇。使之对近代哲学产生深刻影响。在信息时代,计算机二进制的发明,就是德国哲学家莱布尼茨受到《易经》的启示,破译了二进制的奥秘成果。它既是古老的智慧文化之源,它也是一部现实用兵玄机,治世方略,经营之道,管理秘诀,生活的指导。

    《四库全书》的其他大量内容包罗万象,包括易、书、诗、礼、春秋、孝经、五经总义、四书、乐、小学(古代字典),正史、编年、纪事本末、别史、杂史、诏令奏议、传记、方志、史抄、载记、时令、地理、职官、政书、目录、史评、儒家、兵家、法家、农家、臣家、天文、算法、术数、艺术、绘画,(其中就有大于“清明上河图”几十倍的《八旬万寿盛典》图等)、谱录、杂家、类书、小说家、释家、道家、楚辞、别集、总集、诗文评、词典……。不但包罗万象,且旷古烁今,空前绝后,上承集中中华文化五千年之历史和智慧,下至清乾隆年间,中华文化精华几乎无所不包。

    正因为它浩如烟海,包罗万象。正因为它79000多卷,卷帧巨大。从完成之近300年来,都被视为“国之重宝”。深藏深宫大院,严加看管,与世隔绝。如国家图书馆馆长任继愈所说,只能远看,不能近翻。100年来,专家们创建了《四库学》,但所研究也是“一鳞半爪”。

    中华优秀传统文化是中华民族的“根”和“魂”,是中国化马克思主义,中国特色社会主义植根的文化沃土,是中华民族的突出优势。为使马克思主义基本原理和中国传统文化相结合,发扬它的中国的民族特色和最本初的文化基因,没有对中华文化有深刻认知,就无以对今天的“中国特色”作出最真切的解读和阐释,就无从寻找到当代文化建议的来源。而光大中华文化最重要的途径就是通过当代先进的全文数字化工程,使之普及到全世界,才能使中国和全世界的读者、专家在家中、办公室的案头上,随意能方便地浏览和检索几千年中华文化深层次的各个方面内容。《四库全书》的全文数字化和管理发布系统的完成,不但响应了习主席“以古为鉴,实现伟大祖国的民族复兴”的伟大的号召。也是“功在千秋”的一项伟大文化工程。

联系方法:

电话:010-84887401、13801228838

地址:北京朝阳区北四环东路108号 2022年3月8日 蓝德康

乙5号楼1004

E-mail:cstc@china-e.com.cn

核心技术

中文超大字符集

中易《超大型中文网络国际应用平台》,国家973最先产业化项目之一,全面支持对GB18030-2005、ISO/IEC10646: 2017的8万余超大汉字库的应用。

生僻字处理专利技术

基于多年研发,独有的核心技术,采用在线、或离线的方式,全部计算机中缺少的汉字都可正常显示,无需人工干预,友好透明,具有实时性。

超大字符集输入法

多种超大字符集输入法,无需知道读音、无需学习、拿来即用。或可通过简单的学习实现快速盲打,符合语言文字规范,适宜中小学辅助教学使用。

荣获奖项

国家科技进步奖二等奖
National Science Technology Progress Reward
全国科技信息优秀成果一等奖
National Science Technology Information Outstanding Achievement Reward
北京市科技进步一等奖
Beijing Technology Progress Reward
世界华人发明大奖
Global Chinese Invention Reward