元数据著录、数字化扫描工作结束之后,就需要进行数据挂接,将目录数据导入到档案管理系统中,将数字化原文与目录数据进行关联,使之成为可以查询检索的数字化成果。本文主要谈谈数据挂接相关内容。
《纸质档案数字化规范》对数据挂接的要求
1、应借助相关软件对数据库中的目录数据与其对应的纸质档案数字图像进行挂接,以实现目录数据与数字图像的关联。
2、逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,发现错误及时进行纠正。
数据挂接的形式
1. 手工上传挂接
现在的档案管理软件一般都提供手工上传原文进行挂接的形式,元数据著录完毕即形成一条目录数据,通过点击“上传”按钮将数字化扫描原文与目录数据进行关联对应,即为挂接。此种方式,数据关联的准确性高,对数字化扫描件的要求不高,数据存储管理即使不是很科学,也可以实现数据关联。
手工挂接的缺点也很明显,就是手工操作效率较为低下,单位时间内完成工作量及其低下,一般很少工作量,或者需要修改更正的情况下可以使用手工挂接。
2. 批量原文挂接
档案管理软件一般都有批量原文挂接的功能,批量挂接的前提是严格按照《纸质档案数字化规范》进行原文存储管理、图像命名。既要符合国标标准,又需要档案管理部门自身制定详细的管理方案,具体的存储路径,如磁盘怎么区分、门类、全宗、年度、期限怎么在磁盘路径中体现;具体的图像命名,单页扫描件怎么命名,多页扫描件怎么命名,是都保存,还是只保存一部分等等。
档案管理软件的批量原文挂接功能,一般是以档号为基准来实现目录数据和原文数据的关联。这就要求,首先要有准确的“档号”目录数据,按照档案整理方案、档案著录规则,录入元数据后,生成“档号”;其次数字化扫描过程中,文件夹以档号命名,数字图像以档号为基础命名,只有这样才能有实现批量原文挂接的可能。
批量原文挂接的实现途径,主要是原文文件名或者原文文件夹名和目录数据库中的关键字段(一般为档号),进行匹配,匹配成功即传输原文到相应磁盘位置,同时将磁盘路径位置写入对应目录数据库中,完成原文挂接操作。批量挂接可以自动化实现成千上万条数据的关联工作,工作效率高,出错概率底。目前,基本上采用这种形式进行数据挂接。
元数据挂接的要求
1. 元数据著录的规范性
需要按照《档案著录规则》(DA/T18-1999)、《文书档案文件级目录数据库结构与著录细则》(DB34/T450-2004)等标准规范,确定档案数据库的结构标准、元数据字段、著录的规则等。项目开展前进行技能培训,合格才能上岗,著录过程中严格按照标准规范进行,遇到特殊情况及时反馈,确保著录的准确性、规范性。
①档号组成项需要著录规范。
如全宗号、归档年度、保管期限、档案门类代码、实体分类号、项目号、卷/件号等。一般在档案管理软件中“全宗号、归档年度、保管期限、档案门类代码、实体分类号、项目号”可以设置为自动继承,“卷/件号”要能够自动加一。在具体的著录过程中,“保管期限、归档年度”的更迭要注意“卷/件号”是否对应调整。
②“页数、页码”需要填写准确。
优秀的档案管理软件不仅仅要有批量挂接原文的能力,同时需要具有检测原文的能力。现在的档案整理规范,无论是以件为单位的档案,还是以卷为单位的档案,都要求编写页码,一方面便于查找利用,另一方面是对档案规范管理的要求。元数据著录的过程,需要将“页数、页码”手工著录进入系统中,由于手工著录,此两码常常会有错误,而且不容易发现错误,如何解决就是个难题。原文挂接的过程中,增加统计、匹配能,将原文的数量与著录的数量进行对比,很容易发现问题,进而解决问题。
有的数字化加工企业,还使用了先扫描,后统计页数,再将页数反向导入目录元数据的“页数”中。
2. 数字化扫描的规范性
按照《纸质档案数字化规范》(DA/T31—2017)选择合适的存储格式,以档号为基础对数字图像命名,科学建立纸质档案数字图像的存储路径。
3. 提高批量挂接的准确性
我们常常会遇到原文和目录不对应,所见非所得,都在抱怨是挂接的错误,手工挂接或许会有错误,自动化的批量挂接是不会有错误的,如果有错误要么是著录元数据时出错了,要么是数字化扫描的过程出错了。需要规范著录、扫描的全过程,做到有人做、有人查、有人管。
无论是软件的开发方还是数字化的参与方,都应该想方设法提高数据的准确性。档案数字化是个技术含量较低的行业,但是处理的数据量较为庞大,而且大多是手工操作,错误率一致居高不下,如何解决这个问题,需要将管理与技术相结合,一方面严格按照操作流程进行实施,另一方面将现代化的技术手段融入其中,用软件来检测成果,提高准确性。
来源:兰台驿站(转载仅做分享交流,侵权请联系)
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved