爱沙尼亚历史报纸众包OCR校正数据集

数据集概述

该数据集包含爱沙尼亚国家图书馆DIGAR档案中的历史报纸文章及其对应的众包OCR校正内容,涵盖校正数据、统计图表及说明文档,为研究历史报纸文本数字化处理提供支持。

文件详解

  • 文件名称: README.md,文件格式: Markdown,内容说明: 数据集说明文档,包含数据来源、预处理方法(如原始文本逆向工程、过滤规则)等核心信息。
  • 文件名称: temporal_distribution.png,文件格式: PNG,内容说明: 图片文件,展示历史报纸文章的时间分布统计信息。
  • 文件名称: quality_metrics.png,文件格式: PNG,内容说明: 图片文件,呈现OCR校正前后的质量评估指标。
  • 文件名称: ocr_corrections.tsv,文件格式: TSV,字段映射: blockIDunique(唯一块ID)、pageOID(页面ID)、oldtext(原始文本)、newtext(校正后文本)、distance(文本距离)、distance_relative(相对距离)、title(报纸标题)、year(年份)、len_increase(长度变化)、oldtext_rating(原文本评分)、newtext_rating(校正后文本评分)

数据来源

爱沙尼亚国家图书馆DIGAR档案

适用场景

  • 历史文献数字化研究: 分析众包模式对历史报纸OCR校正质量的提升效果
  • 文本校正算法训练: 基于真实校正数据优化OCR错误检测与修正模型
  • 数字人文研究: 利用历史报纸文本开展特定时期社会、文化主题分析
  • 众包协作机制评估: 探究众包参与者对文本校正任务的贡献规律与效率
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 11.77 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。