市档案馆AI智能校对系统正式上线
近日,昆山市档案馆AI智能校对系统正式上线。
▲AI智能校对系统(登陆界面)
▲AI智能校对系统(比对界面)
▲AI智能校对系统(识别界面)
经过多年数字化积累,昆山市档案馆馆藏档案数字化比例已达100%,包括文件级目录300万条、档案全文3800万页。数据资源质量是数字档案馆建设的重中之重,也是全国示范数字档案馆测试的关键指标,为确保数据质量,昆山市档案馆投入大量人力,经过近三年努力,对存量档案数据完成了两轮数据清洗工作。然而,人工质检数据量大、繁琐枯燥、效率低,容易存在漏检、少检、错检等情况。
▲人工质检现场
市档案馆在前期技术调研的基础上,经过积累和准备,在市大数据中心的支持配合下,于2021年9月正式启动基于机器学习算法的AI智能校对系统研发工作,将大量的档案数据机器学习与人工智能服务中台的文字识别(OCR)服务、自然语言(NLP)分析服务进行对接,通过预处理模块、文本检测模块、文字识别模块、语义分析预处理模块、对比分析模块等后台功能把纷繁复杂的档案目录和全文进行智能编目索引,并与原目录内容进行比对,实现档案数据智能校对。系统研发期间,克服诸多技术难点,如档案全文中包含大量手写体、表格、印章、下划线、指纹手印、特殊字符等,干扰识别程序,导致识别有误;不同部门的档案文件格式不统一,导致目录抽取不一致等。针对这些问题,研发组通过加大对特定区域机器学习分析和大量文本学习找寻题名等目录规律,经过不断试错纠正,将识别正确率提升至90%以上。
▲矫正统计
图片分析
▲范例原文及识别结果
▲校对结果
AI智能校对系统的成功上线摆脱了档案校对工作对人工的依赖,实现了自动识别、自动比对、自动编目等智能校对,促进了档案管理的智能化、高效化。下一步,市档案馆将围绕档案事业发展“十四五”规划总体要求,以数字赋能档案信息化转型升级,扛起“争当表率、争做示范、走在前列”的重大使命,在巩固提升全国示范数字档案馆创建成果上奋力实现“新的超越”。
来源 | 昆山档案
责任编辑 | 沈 莹
转载此文章须经作者同意,并请附上出处(第一昆山网)及本页链接。
原文链接:https://www.ksrmtzx.com/news/detail/82657
全部评论