古诺尔斯语手稿HTR模型训练与测试数据集

数据集概述

本数据集包含用于古诺尔斯语手稿手写文本识别(HTR)模型的训练与测试数据,支持DH2025论文研究。数据以ZIP压缩包形式存储,分为训练数据和测试数据两个文件夹,包含手稿图像及对应的ALTO-XML标注文件。

文件详解

  • 压缩包文件:bifrost_01.zip(ZIP格式),包含两个子文件夹
  • 训练数据文件夹(bifrost_01_training_data):含JPG格式手稿图像文件、ALTO-XML格式标注文件,用于微调CATMuS Medieval模型
  • 测试数据文件夹(bifrost_01_test_data):含JPG格式手稿图像文件、ALTO-XML格式标注文件,用于测试微调后模型的性能

适用场景

  • 手写文本识别(HTR)模型开发:用于古诺尔斯语手稿文本识别模型的训练与性能测试
  • 数字人文研究:支持中世纪手稿数字化与文本内容自动提取的学术研究
  • 模型评估:为古文字处理模型的精度验证提供标准化测试数据集
  • 开放科学实践:作为FAIR原则(可发现、可访问、可互操作、可重用)在人文领域应用的案例数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 740.43 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。