数据集概述
本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别(HTR)模型,包含12-15世纪的宪章、登记簿等手稿数据,涉及1855页、12万行文本及近100万字符,整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库,支持多语言多字体识别,可用于中世纪文献的数字化处理。
文件详解
- GT_list:
- 文件内容:包含构成训练、评估和测试集的真实标注(GT)文件名列表,图像和转录文本需从原始仓库下载
- Training:
- 文件内容:包含原论文中两个训练阶段(Regular阶段:Textualis和Cursiva字体分开训练;Quartiles阶段:按四分位数混合训练)的训练及测试结果(评估文件、预测文件)
- Useful_scripts:
- 文件内容:用于生成HTR指标(CER字符错误率、WER词错误率、SER句错误率)及绘制模型准确率的脚本
- Best_model:
- 文件名称:HTR_medieval_documentary_best.mlmodel、HTR_medieval_documentary_manuscripts.zip
- 文件格式:.mlmodel、.zip
- 字段/内容说明:包含最佳多语言多字体HTR模型,其中.mlmodel为模型文件,.zip为相关压缩包
数据来源
论文“Sergio Torres Aguilar, Vincent Jolivet. Handwritten Text Recognition for Documentary Medieval Manuscripts. 2022. https://hal.science/hal-03892163”
适用场景
- 中世纪文献数字化:用于中世纪拉丁及法语手写文档的自动转录,推动古籍数字化保存与检索
- HTR模型训练与优化:作为训练数据开发或优化针对特定历史字体(Textualis、Cursiva)的手写文本识别模型
- 模型评估基准:用于测试HTR模型在中世纪多语言手稿上的识别准确率、字符错误率等性能指标
- 历史文本处理研究:支持中世纪文献语言学特征分析、书写风格演变研究等学术场景