德累斯顿宫廷日记1673年手写文本识别基准数据集

数据集概述

本数据集包含1673年《德累斯顿选帝侯约翰·格奥尔格二世宫廷日记》的二十页手写文本基准数据,采用17世纪末萨克森典型楷书体书写,偶见混合字体。提供与原始图像对齐的转录文本及元数据,支持手写文本识别模型训练与评估。

文件详解

该数据集包含三类文件,具体说明如下: - 图像文件(20个): - 文件格式:JPG(.jpg) - 内容:原始手稿扫描图像,与转录文本对齐,文件命名含编号(如0105_00000111.tif.original.jpg) - 转录文件(21个): - 文件格式:XML(.xml) - 内容:采用ALTO XML格式存储的手写文本转录数据,遵循DTABF-M schema调整规则(如区分长s与圆s、保留u/v原始形态等),文件命名与对应图像匹配(如0006_00000012.tif.original.xml) - 元数据与说明文件(1个): - 文件名称:README_K117.txt - 文件格式:TXT(.txt) - 内容:数据集背景、转录规则、数据来源等说明文档

数据来源

SLUB Dresden(萨克森州立与大学图书馆德累斯顿)

适用场景

  • 手写文本识别(HTR/OCR)研究:用于训练和评估17世纪德文手写体识别模型
  • 历史文献数字化:支持早期现代德语手稿的自动转录与文本分析
  • 数字人文研究:为17世纪萨克森地区宫廷历史、书写文化研究提供结构化文本数据
  • 古籍数字化工具开发:作为基准数据集优化古籍图像分割与文本对齐算法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 26.21 MiB
最后更新 2025年12月25日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。