ICPR_2020文本块分割竞赛新闻眼数据集

数据集概述

本数据集为ICPR 2020文本块分割竞赛专用数据,源自NewsEye项目,包含奥地利国家图书馆提供的19至20世纪德语历史报纸页面(部分二值化),涉及4种报纸标题。数据分为简单赛道(仅连续文本)和复杂赛道(含表格、图像等),各赛道含训练数据40页、测试数据10页,总计6个压缩文件。

文件详解

  • 训练数据文件
  • 文件名称:simple_pages_train.zip、complex_pages_train.zip
  • 文件格式:ZIP
  • 内容说明:包含扫描报纸页面图像,以及对应图像的PAGE XML格式文件(含基线坐标、行文本、文本块区域标记,同块基线有唯一ID)
  • 测试数据文件(无真值)
  • 文件名称:simple_pages_test.zip、complex_pages_test.zip
  • 文件格式:ZIP
  • 内容说明:包含扫描报纸页面图像,对应PAGE XML文件仅含基线(无块ID)、文本及整页单区域标记(需忽略)
  • 测试数据文件(含真值)
  • 文件名称:simple_pages_test_gt.zip、complex_pages_test_gt.zip
  • 文件格式:ZIP
  • 内容说明:包含扫描报纸页面图像及带真值的PAGE XML文件(含文本块区域标记、同块基线唯一ID),解压密码分别为"icpr2020!tb_simple"(简单赛道)和"icpr2020!tb_complex"(复杂赛道)

数据来源

NewsEye项目(奥地利国家图书馆提供报纸数据)

适用场景

  • 文本块分割算法开发与评估: 用于训练和测试历史报纸页面中文本块分割模型的性能
  • 历史文档分析研究: 支持19-20世纪德语报纸的数字化处理与内容提取研究
  • 文档布局分析: 探索含复杂元素(表格、图像、广告)的历史文档布局结构识别方法
  • 竞赛基准测试: 作为ICPR 2020文本块分割竞赛的标准数据集,用于算法性能比较
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 201.2 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。