基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集

数据集概述

本数据集包含柏林国家图书馆50页数字化历史报纸的真值数据，用于OCR/OLR系统的训练与评估，由欧盟ICT-PSP项目Europeana Newspapers产出。数据集含PAGE-XML格式真值文件、全分辨率及二值化扫描图像、对应OCR结果等5个压缩包，为历史报纸文本识别技术提供标准化测试资源。

文件详解

gt_page.zip
文件格式：ZIP（内含PAGE-XML文件）
字段映射介绍：遵循PAGE-XML格式标准，包含历史报纸页面的结构化真值信息，用于OCR/OLR系统的标注与评估
img_full.zip
文件格式：ZIP（内含TIF文件）
字段映射介绍：历史报纸全分辨率扫描图像，为原始图像数据源
img_bin.zip
文件格式：ZIP（内含TIF文件）
字段映射介绍：经Gatos方法二值化处理的历史报纸图像，用于OCR系统的二值化输入测试
ocr_full.zip
文件格式：ZIP
字段映射介绍：基于全分辨率图像的FineReaderEngine11 OCR识别结果，用于与真值数据对比评估
ocr_bin.zip
文件格式：ZIP
字段映射介绍：基于二值化图像的FineReaderEngine11 OCR识别结果，用于不同图像预处理下的OCR性能对比

数据来源

柏林国家图书馆（Berlin State Library），欧盟ICT-PSP项目Europeana Newspapers

适用场景

OCR/OLR系统训练与评估：用于文本识别模型的训练、参数调优及性能测试
历史文献数字化技术研究：分析不同图像预处理（全分辨率/二值化）对OCR结果的影响
历史报纸文本识别算法对比：通过标准化真值数据，客观比较不同OCR引擎的准确率
数字人文资源建设：为历史报纸数字化项目提供技术验证与质量控制的参考标准

数据与资源

2583866.zipZIP
49.27 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	49.27 MiB
最后更新	2026年1月27日
创建于	2026年1月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？