数据19世纪奥地利报纸OCR训练数据集_NewsEye_READ

数据集概述

该数据集包含19世纪至20世纪初奥地利报纸页面的经人工校正文本数据,分为训练集(148页)和验证集(13页),采用PAGE格式存储,由Transkribus平台生成,支持NewsEye与READ项目研究。

文件详解

  • 训练集文件: TrainingSet_ONB_Newseye_GT_M1+.zip,ZIP格式压缩包,包含148页奥地利报纸页面的OCR标注训练数据,采用PAGE XML格式存储。
  • 验证集文件: ValidationSet_ONB_Newseye_GT_M1+.zip,ZIP格式压缩包,包含13页奥地利报纸页面的OCR标注验证数据,采用PAGE XML格式存储。

数据来源

奥地利国家图书馆

适用场景

  • OCR模型训练与优化: 用于训练和改进针对19世纪历史报纸文本的光学字符识别算法
  • 历史文献数字化研究: 支持历史报纸内容的自动识别与结构化处理
  • 数字人文研究: 为19世纪奥地利社会、文化、新闻史研究提供数字化文本数据源
  • 古籍数字化技术评估: 可用于验证不同OCR工具在历史文献处理中的性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 174.1 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。