PMC_OA_Based_神经疾病生物医学文献表格识别基准数据集

数据集概述

本数据集包含来自1164篇PMC开放获取(OA)神经疾病相关文献的1650个表格,采用国际文档分析与识别会议(ICDAR)格式结构化。同时提供分类CSV文件,将表格分为简单、复杂、极复杂三类。数据集共863个文件,以XML格式为主,支持生物医学文献表格识别任务的基准测试。

文件详解

  • XML文件(862个)
  • 文件名称:以PMC编号命名(如PMC3916938.xml、PMC4202772.xml等)
  • 文件格式:XML
  • 字段映射介绍:存储PMC开放获取文献中的表格数据,采用ICDAR格式结构化,包含文献ID、表格ID及表格内容信息
  • 分类CSV文件
  • 文件名称:table_classes.csv
  • 文件格式:CSV
  • 字段映射介绍:包含三列数据,分别为类别(0=简单、1=复杂、2=极复杂)、文献ID(document_id)、表格ID(table_id)

数据来源

PMC开放获取(OA)神经疾病相关文献

适用场景

  • 生物医学文献表格识别算法评估:用于测试表格检测、结构提取算法在神经疾病文献中的性能
  • 医疗数据结构化研究:探索生物医学文献中表格数据的标准化提取方法
  • 神经疾病医疗信息挖掘:通过表格内容分析神经疾病相关的临床指标、实验数据等信息
  • 医疗AI模型训练:作为训练数据,提升AI模型对生物医学复杂表格的理解能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.81 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。