找到4个数据集

分类: 公开数据 标签: 表格ID

过滤结果
  • PMC_OA_Based_神经疾病生物医学文献表格识别基准数据集

    2026年1月28日 30 178 3

    数据集概述 本数据集包含来自1164篇PMC开放获取(OA)神经疾病相关文献的1650个表格,采用国际文档分析与识别会议(ICDAR)格式结构化。同时提供分类CSV文件,将表格分为简单、复杂、极复杂三类。数据集共863个文件,以XML格式为主,支持生物医学文献表格识别任务的基准测试。 文件详解 XML文件(862个)...
    packageimg
  • Wiki_TabNER_Based_维基百科表格实体识别标注数据集

    2026年1月27日 30 133 45

    数据集概述 本数据集是论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》中描述的数据集,包含从维基百科页面提取的表格,并标注了Dbpedia实体类型。数据集包含三个文件,可用于解决表格内的命名实体识别和实体链接任务。 文件详解...
    packageimg
  • GitTables_Based_SemTab_2022列类型检测基准数据集

    2026年1月21日 30 159 114

    数据集概述 本数据集是GitTables语料库的子集,专为2022年SemTab竞赛第三轮的列类型检测方法基准测试而整理。包含表格数据文件及对应DBpedia、Schema.org的目标列标注与真值文件,共七个文件,用于评估表格列语义类型检测模型的性能。 文件详解 文件名称:GitTables_SemTab_2022_dataset.zip...
    packageimg
  • GitTables基准测试_列类型检测数据集

    2025年12月20日 30 100 7

    数据集概述 本数据集是GitTables语料库的一个子集,专为列类型检测方法的基准测试设计。它基于DBpedia和Schema.org本体的语义类型,用于评估系统对表格列进行语义标注的能力,曾用于SemTab 2021挑战赛的CTA任务。数据集包含表格样本、目标列信息、标注真值及标签映射文件,支持列类型检测模型的训练与评估。 文件详解...
    packageimg