找到2个数据集

标签: PAGEXML

过滤结果
  • ICPR_2020文本块分割竞赛新闻眼数据集

    2026年2月9日 30 31 2

    数据集概述 本数据集为ICPR 2020文本块分割竞赛专用数据,源自NewsEye项目,包含奥地利国家图书馆提供的19至20世纪德语历史报纸页面(部分二值化),涉及4种报纸标题。数据分为简单赛道(仅连续文本)和复杂赛道(含表格、图像等),各赛道含训练数据40页、测试数据10页,总计6个压缩文件。 文件详解 训练数据文件...
    packageimg
  • 基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集

    2026年1月27日 30 1 0

    数据集概述 本数据集包含柏林国家图书馆50页数字化历史报纸的真值数据,用于OCR/OLR系统的训练与评估,由欧盟ICT-PSP项目Europeana Newspapers产出。数据集含PAGE-XML格式真值文件、全分辨率及二值化扫描图像、对应OCR结果等5个压缩包,为历史报纸文本识别技术提供标准化测试资源。 文件详解 gt_page.zip...
    packageimg