TRIDIS_Based_中世纪与近代早期多语言手稿手写文本识别模型数据11th_16th

数据集概述

本数据集包含TRIDIS手写文本识别(HTR)模型相关文件,该模型针对11-16世纪中世纪与近代早期多语言(拉丁语、古法语、古西班牙语)手稿设计,适用于法律、行政等纪实类手稿及文学、学术文献。数据集含模型文件与元数据,支持历史文本数字化与分析。

文件详解

  • 文件名称:metadata.json
  • 文件格式:JSON
  • 字段映射介绍:包含authors(作者)、summary(摘要)、description(描述)、accuracy(准确率)、license(许可)、script(文字类型)、name(名称)、graphemes(字符集)等模型相关元数据字段
  • 文件名称:Tridis_Medieval_EarlyModern.mlmodel
  • 文件格式:mlmodel
  • 字段映射介绍:TRIDIS HTR模型文件,采用CNN+RNN+CTC架构,支持11-16世纪多语言手稿文本识别

数据来源

论文“Sergio Torres Aguilar, Vincent Jolivet. Handwritten Text Recognition for Documentary Medieval Manuscripts. Journal of Data Mining and Digital Humanities. 2023. https://hal.science/hal-03892163”及相关开源语料库(Alcar-HOME、e-NDP、Himanis等)

适用场景

  • 中世纪文献数字化:将11-16世纪多语言手稿转换为可编辑文本,提升历史文献利用效率
  • 历史文本分析:辅助历史学家、文献学家对中世纪法律、行政、文学文本进行内容分析
  • 手写文本识别模型研究:为HTR模型在古文字、多语言场景下的应用提供参考案例
  • 数字人文研究:支持数字人文领域中古文本数字化处理与语义分析工作
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 23.73 MiB
最后更新 2026年1月17日
创建于 2026年1月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。