HTR_Based_中世纪拉丁及法语手稿文档识别模型数据集

本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别（HTR）模型，包含12-15世纪的宪章、登记簿等手稿数据，涉及1855页、12万行文本及近100万字符，整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库，支持多语言多字体识别，可用于中世纪文献的数字化处理。

GT_list：
文件内容：包含构成训练、评估和测试集的真实标注（GT）文件名列表，图像和转录文本需从原始仓库下载
Training：
文件内容：包含原论文中两个训练阶段（Regular阶段：Textualis和Cursiva字体分开训练；Quartiles阶段：按四分位数混合训练）的训练及测试结果（评估文件、预测文件）
Useful_scripts：
文件内容：用于生成HTR指标（CER字符错误率、WER词错误率、SER句错误率）及绘制模型准确率的脚本
Best_model：
文件名称：HTR_medieval_documentary_best.mlmodel、HTR_medieval_documentary_manuscripts.zip
文件格式：.mlmodel、.zip
字段/内容说明：包含最佳多语言多字体HTR模型，其中.mlmodel为模型文件，.zip为相关压缩包

论文“Sergio Torres Aguilar, Vincent Jolivet. Handwritten Text Recognition for Documentary Medieval Manuscripts. 2022. https://hal.science/hal-03892163”

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	572.28 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。