基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集

数据集概述

本数据集包含柏林国家图书馆50页数字化历史报纸的真值数据,用于OCR/OLR系统的训练与评估,由欧盟ICT-PSP项目Europeana Newspapers产出。数据集含PAGE-XML格式真值文件、全分辨率及二值化扫描图像、对应OCR结果等5个压缩包,为历史报纸文本识别技术提供标准化测试资源。

文件详解

  • gt_page.zip
  • 文件格式:ZIP(内含PAGE-XML文件)
  • 字段映射介绍:遵循PAGE-XML格式标准,包含历史报纸页面的结构化真值信息,用于OCR/OLR系统的标注与评估
  • img_full.zip
  • 文件格式:ZIP(内含TIF文件)
  • 字段映射介绍:历史报纸全分辨率扫描图像,为原始图像数据源
  • img_bin.zip
  • 文件格式:ZIP(内含TIF文件)
  • 字段映射介绍:经Gatos方法二值化处理的历史报纸图像,用于OCR系统的二值化输入测试
  • ocr_full.zip
  • 文件格式:ZIP
  • 字段映射介绍:基于全分辨率图像的FineReaderEngine11 OCR识别结果,用于与真值数据对比评估
  • ocr_bin.zip
  • 文件格式:ZIP
  • 字段映射介绍:基于二值化图像的FineReaderEngine11 OCR识别结果,用于不同图像预处理下的OCR性能对比

数据来源

柏林国家图书馆(Berlin State Library),欧盟ICT-PSP项目Europeana Newspapers

适用场景

  • OCR/OLR系统训练与评估:用于文本识别模型的训练、参数调优及性能测试
  • 历史文献数字化技术研究:分析不同图像预处理(全分辨率/二值化)对OCR结果的影响
  • 历史报纸文本识别算法对比:通过标准化真值数据,客观比较不同OCR引擎的准确率
  • 数字人文资源建设:为历史报纸数字化项目提供技术验证与质量控制的参考标准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 49.27 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。