ICPR_2020文本块分割竞赛新闻眼数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

ICPR_2020文本块分割竞赛新闻眼数据集

数据集概述

本数据集为ICPR 2020文本块分割竞赛专用数据，源自NewsEye项目，包含奥地利国家图书馆提供的19至20世纪德语历史报纸页面（部分二值化），涉及4种报纸标题。数据分为简单赛道（仅连续文本）和复杂赛道（含表格、图像等），各赛道含训练数据40页、测试数据10页，总计6个压缩文件。

文件详解

训练数据文件
文件名称：simple_pages_train.zip、complex_pages_train.zip
文件格式：ZIP
内容说明：包含扫描报纸页面图像，以及对应图像的PAGE XML格式文件（含基线坐标、行文本、文本块区域标记，同块基线有唯一ID）
测试数据文件（无真值）
文件名称：simple_pages_test.zip、complex_pages_test.zip
文件格式：ZIP
内容说明：包含扫描报纸页面图像，对应PAGE XML文件仅含基线（无块ID）、文本及整页单区域标记（需忽略）
测试数据文件（含真值）
文件名称：simple_pages_test_gt.zip、complex_pages_test_gt.zip
文件格式：ZIP
内容说明：包含扫描报纸页面图像及带真值的PAGE XML文件（含文本块区域标记、同块基线唯一ID），解压密码分别为"icpr2020!tb_simple"（简单赛道）和"icpr2020!tb_complex"（复杂赛道）

数据来源

NewsEye项目（奥地利国家图书馆提供报纸数据）

适用场景

文本块分割算法开发与评估: 用于训练和测试历史报纸页面中文本块分割模型的性能
历史文档分析研究: 支持19-20世纪德语报纸的数字化处理与内容提取研究
文档布局分析: 探索含复杂元素（表格、图像、广告）的历史文档布局结构识别方法
竞赛基准测试: 作为ICPR 2020文本块分割竞赛的标准数据集，用于算法性能比较

数据与资源

4943582.zipZIP
201.20 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	201.2 MiB
最后更新	2026年2月9日
创建于	2026年2月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？