■ 家谱数字化的难点
在历史文献的全文数字化中,家谱可以说是数字化项目中最难做的资源类型,其难点主要表现在以下几方面:
● 生僻字极多,用字量可达4-5万多个汉字,还有很多标准之外的字。
● 时间年代长,并由各个家族自行撰写,导致其中包涵大量的异体字、讹字等。在数字化加工过种中,处理这些异体字,需要加工人员对古籍具有丰富的经验。
● 版式的多样性及复杂,如图、表格、及多种自定义形式。在数字化过程中,需要有专业的技术及工具进行处理。
● 家谱本身不可避免的常含有错误。
■ 家谱全文数字化
因为家谱数字化具有清晰度不佳、字形不规范等特点,采用OCR软件进行光学识别,对大多数家谱来说精度不高,生产效率不理想。
对于连续性文本,中易采用专有的技术和软件工具进行人工录入,并利用计算机自动对内容进行比对,及同屏校等方法,能大大提高校对的准确率和效率。
对于标准字符集内未包括的字,需进行统计、规范处理、造字、扩充输入法等。必要时由专家做判断。
家谱数字化生产加工中会涉及到几十道工序,并使用到十多种加工工具,包括但不限于流程控制、版面切分、录入、校对、疑难字处理、系统缺字处理等。
展示家谱中人物间的逻辑关系,是将家谱特色用数字化的方式进行展示的一项即实用、又非常有价值的亮点。将世系图表数字化,建立家族传承关系连接并进行展示,中易在此方面也有丰富的加工经验,逐步开发和完善了一套古籍家谱的加工工具软件,使人工借助软件,能够更快捷、准确地完成世系传承的编辑工作。
但即使如此,家谱中问题还是很多,没有这方面制作经验的人是难以想象的。
|