中易可为用户提供最专业的古籍全文数字化服务。众所周知,古籍全文数字化是难度最大的数字化项目,难度体现为:
1、 包含大量的生僻字,需要有特殊的技术进行处理。
2、 包含大量的异体字,对异体字的认同,需要有深厚的文字学知识。
3、 生僻字、异体字的标准化操作,需要对国际、国家的语言文字规范、及计算机的字符集有深入的了解。
4、 缺字的补造字及处理。
5、 古籍版式复杂,常有大字带小字、框外批注、点校、竖排表格等复杂版式出现,版式还原难度大。
中易专业从事高难度的古籍全文数字化,尤其擅长对古籍档案、地方志、家谱等难度高的古籍进行全文数字化,在此方面已有超过十余年的经验积累,及十数亿字的工程经验。
中易采用大规模集约化工业生产加工方式,并在承担的多个国家重点项目中,不断完善升级,由C/S结构中心统一控制各工序,依托于《中易超大型中文网络国际应用平台》,全线采用中易核心的超大字符集技术,支持ISO 10646:2003 (Unicode 4.0/5.0)国际标准7万余汉字的处理,配合中易专业的补造字服务,彻底解决了古籍的生僻字数字化难题。配合中易《全汉字数字古籍发布系统》,可对数字化古籍进行更好的展示和利用。
自主知识产权的版权还原工具,可对任何复杂古籍版式进行一比一还原。
独有的异体字管理系统,可对异体字进行专业化的操作。
数十道工序人工与计算机相结合的录入、OCR、校对、版式还原工序,保证数据质量,精度根据用户要求可达到99.97%或更高(即错误率小于万分之三,或更低)。
数据采用XML描述,一套数据可做多元化的应用。不但可在Internet上进行数字发布,并可配合数字出版和按需打印。
中易的古籍数字化符相关国家和行业标准,技术水平处于行业前沿。服务的单位中有数量众多的国家级图书馆、档案馆、及科研单位,经验丰富、项目质量有保证,商业信誉良好,数据的安全性有保障。
中易是国家图书馆《中文文献全文版式还原与全文输入XML规范》和《计算机中文信息处理规范》的唯一编制单位,此规范制定了中文文献全文版式还原与全文输入XML规范文件能够在互联网上全方位、实时再现中文文献原貌(重点是古籍)、中文文献信息检索;中文文献长期存储与保存的相关标准。
中易承担的国家图书馆前三期古籍《地方志》的全文数字化及版式还原工程,年代跨度从宋到民国,全文数字化、版式还原内容超过6亿字,扫描超过100万筒子页。