基督教阿拉伯文手写文本识别模型训练数据集

数据集概述

本数据集包含基督教阿拉伯文手稿的图像及专家校正的分割、转录数据,以PAGE XML格式存储,用于训练和测试Agapet手写文本识别模型,兼容Transkribus、eScriptorium/Kraken等工具。

文件详解

  • 文件名称: Sin423 (17th cent).zip:ZIP格式压缩包,包含17世纪Sinai Arabic 423手稿的478页内容(对应239张图像)的完整分割与转录数据
  • 文件名称: BnF Arabe 76 pp 68-78.zip:ZIP格式压缩包,包含14世纪BnF Arabe 76手稿68-78页(共11页)的分割与转录数据,用于eScriptorium模型测试
  • 文件名称: SA-418 (13th cent).zip:ZIP格式压缩包,包含13世纪SA-418手稿342页的完整分割与转录数据

适用场景

  • 手写文本识别研究:用于训练、测试基督教阿拉伯文手写文本识别模型
  • 古籍数字化:支持基督教阿拉伯文手稿的自动化识别与分析
  • 模型开发:为独立开发基督教阿拉伯文手稿识别模型提供数据基础
  • 历史文献研究:辅助数字化分析13-17世纪基督教阿拉伯文手稿内容
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 502.18 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。