Swinemünder_Badeanzeiger_历史报纸表格OCR人工标注数据集

数据集概述

本数据集为历史报纸《Swinemünder Badeanzeiger》表格信息提取的人工标注真值数据,按年份组织文件夹,每个年份文件夹含原始图像ID命名的子文件夹,包含分割表格图像、人工转录的结构化JSON标注及条目与表格行关联的索引JSON,另有汇总所有条目的JSON文件,用于OCR信息提取模型训练与评估。

文件详解

  • 按年份组织的文件夹结构
  • 子文件夹命名规则:对应原始图像ID
  • 包含文件:
  • table_[running_number].jpg:分割后的表格图像,格式为JPG
  • table_[running_number]_annotation.json:人工转录的结构化数据,包含input、Nummer、Vorname、Nachname、Titel、Beruf、Sozialer Stand、Begleitung、Wohnort、Wohnung、Personenanzahl字段
  • table_[running_number]_index_connected.json:关联条目与表格行的列表,格式为JSON
  • 汇总文件
  • 文件名称:swinebad_groundtruth.json
  • 文件格式:JSON
  • 字段映射:包含所有条目的完整信息,在原有标注字段基础上新增date(报纸出版日期)字段
  • 压缩包文件
  • 文件名称:SwineBad_Annotation.zip
  • 文件格式:ZIP
  • 内容说明:包含上述所有按年份组织的文件夹及汇总文件

数据来源

Digitale Bibliothek Mecklenburg Vorpommern(https://www.digitale-bibliothek-mv.de/viewer/toc/PPN636776093/

适用场景

  • OCR模型训练与评估:用于训练历史报纸表格信息提取的OCR模型,评估模型结构化输出的准确性
  • 历史人口学研究:分析报纸中记录的人物姓名、职业、社会地位、居住地等信息,研究特定时期的人口特征
  • 历史文献数字化:为《Swinemünder Badeanzeiger》报纸的数字化加工提供结构化标注参考
  • 数据挖掘应用:基于汇总的JSON数据,挖掘历史报纸中的社会关系、人口流动等信息
  • 数字图书馆资源建设:辅助Digitale Bibliothek MV完善历史报纸的结构化元数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 32.77 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。