数据集概述
本数据集为历史报纸《Swinemünder Badeanzeiger》表格信息提取的人工标注真值数据,按年份组织文件夹,每个年份文件夹含原始图像ID命名的子文件夹,包含分割表格图像、人工转录的结构化JSON标注及条目与表格行关联的索引JSON,另有汇总所有条目的JSON文件,用于OCR信息提取模型训练与评估。
文件详解
- 按年份组织的文件夹结构
- 子文件夹命名规则:对应原始图像ID
- 包含文件:
table_[running_number].jpg:分割后的表格图像,格式为JPG
table_[running_number]_annotation.json:人工转录的结构化数据,包含input、Nummer、Vorname、Nachname、Titel、Beruf、Sozialer Stand、Begleitung、Wohnort、Wohnung、Personenanzahl字段
table_[running_number]_index_connected.json:关联条目与表格行的列表,格式为JSON
- 汇总文件
- 文件名称:
swinebad_groundtruth.json
- 文件格式:JSON
- 字段映射:包含所有条目的完整信息,在原有标注字段基础上新增date(报纸出版日期)字段
- 压缩包文件
- 文件名称:
SwineBad_Annotation.zip
- 文件格式:ZIP
- 内容说明:包含上述所有按年份组织的文件夹及汇总文件
数据来源
Digitale Bibliothek Mecklenburg Vorpommern(https://www.digitale-bibliothek-mv.de/viewer/toc/PPN636776093/)
适用场景
- OCR模型训练与评估:用于训练历史报纸表格信息提取的OCR模型,评估模型结构化输出的准确性
- 历史人口学研究:分析报纸中记录的人物姓名、职业、社会地位、居住地等信息,研究特定时期的人口特征
- 历史文献数字化:为《Swinemünder Badeanzeiger》报纸的数字化加工提供结构化标注参考
- 数据挖掘应用:基于汇总的JSON数据,挖掘历史报纸中的社会关系、人口流动等信息
- 数字图书馆资源建设:辅助Digitale Bibliothek MV完善历史报纸的结构化元数据