本报讯(记者朱羿)3月26日,西北师范大学联合甘肃简牍博物馆推出的简牍字符检测与识别数据集——DeepJiandu数据集正式投入使用。这是我国首个专门面向深度学习的简牍字符检测与识别大规模数据集,标志着我国简牍智能计算研究取得重要进展。
简牍是纸发明以前中国书籍的最主要形式,承载着丰富的文化内涵与历史信息。由于简牍材料的脆弱性,随着时间推移,这些古籍文献容易出现字符模糊、字迹缺损等问题,使得人工识别与整理极为困难。现有的文献数字化技术虽在甲骨文、蒙文手写体、巴厘岛棕榈叶手稿等领域取得突破,但在简牍字符识别方面仍缺乏高质量的数据集,制约了深度学习在该领域的应用。
“DeepJiandu数据集的构建正是为了解决这一问题。”长期从事这项交叉性研究工作的西北师范大学教授张强介绍,研究团队在前期简牍红外图像资料基础上,结合简牍学专家提供的释文信息,对图像进行了数字化加工处理和系统性字符标注。数据集涵盖2200余种字符类别,由简牍与计算机领域专家联合完成标注,以确保数据的专业性与准确性。同时,数据集设计充分考虑了简牍字符残损、异形字、多种排版等复杂场景,有效提升了模型对历史文献的适应能力。西北师范大学简牍研究院学术委员会主任张德芳表示,数据集的发布填补了简牍智能计算研究数据要素的空白,将为简牍文献的数字化利用和保护提供坚实基础,有效推动数字人文领域的持续创新与发展。目前,研究团队正进一步推进简牍图像融合、残断简缀合、书写风格识别及简牍多模态大模型等相关工作,探索更具广度和深度的简牍智能化路径。
据了解,该科研工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人文工程研究中心张强教授团队具体开展,上海中西书局、甘肃文化出版社提供相关数据资源,西南大学参与数据集验证试验工作。
来源:中国社会科学报
责任编辑:陈静
新媒体编辑:宗敏
如需交流可联系我们