化学专利表格分类数据集_ChemTables

数据集概述

本数据集聚焦化学专利中的表格分类任务,包含七百八十八个带有内容类型标签的化学专利表格,提供分层划分的训练/验证/测试集及XML格式表格数据,支持自动化表格分类方法的研究与评估。

文件详解

  • 文档文件:
  • README.md:Markdown格式的说明文档,提供数据集JSON格式示例及字段说明,XML版本在'data'字段使用XML字符串替代三维列表。
  • 压缩文件:
  • 5-Folds目录:包含ChemTables_5_folds.zip(五折划分的表格数据)、ChemTables_xml_5_folds.zip(五折划分的XML格式表格数据)
  • Full目录:包含ChemTables_full.zip(完整表格数据集)、ChemTables_xml_full.zip(完整XML格式表格数据集)
  • Standard Split目录:包含ChemTables_standard_split.zip(标准划分的表格数据)、ChemTables_xml_standard_split.zip(标准划分的XML格式表格数据)

适用场景

  • 自然语言处理研究:用于化学专利表格内容的自动分类算法开发与评估
  • 化学信息学分析:辅助化学专利中关键表格信息(如光谱数据、药理作用)的快速检索
  • 专利信息挖掘:提升化学专利文献中结构化数据的自动化处理效率
  • 机器学习应用:作为表格分类任务的标准数据集,支持模型性能对比与优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.36 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。