ScanBank_Based_扫描电子学位论文图表提取基准数据集

数据集概述

本数据集是用于从扫描电子学位论文中提取图表的基准数据集,包含标注文件、配置文件、代码文件等16个文件,支持图表提取任务的模型训练、验证与测试,为学术文档处理领域的图表检测研究提供标准化数据支撑。

文件详解

  • 标注相关文件
  • 文件名称:annotations.csv、annotations.json、figure_boundaries_train.json、figure_boundaries_validation.json、figure_boundaries_testing.json、figure_boundaries_test.json、figure_boundaries.json
  • 文件格式:CSV、JSON
  • 字段映射介绍:annotations.csv包含文件名、文件大小、区域数量、区域ID、区域形状属性等图表标注信息;各JSON文件记录训练、验证、测试等不同用途的图表边界标注数据
  • 代码与配置文件
  • 文件名称:download_etds.py、util.py、renderers.py、requirements.txt、environment.yaml
  • 文件格式:PY、TXT、YAML
  • 字段映射介绍:PY文件为数据下载与处理工具脚本;requirements.txt和environment.yaml记录依赖包版本;environment.yaml为环境配置文件
  • 说明与辅助文件
  • 文件名称:README.txt、LICENSE.txt、etd_urls.txt
  • 文件格式:TXT
  • 字段映射介绍:README.txt含数据集使用步骤说明;LICENSE.txt为许可文件;etd_urls.txt记录电子学位论文的URL信息

适用场景

  • 学术文档图表提取模型开发:用于训练和测试扫描学位论文中的图表检测与提取算法
  • 文档图像处理研究:支持扫描文档中图表区域的边界检测、分类等任务的算法验证
  • 学术数据挖掘:辅助从大规模扫描学位论文中自动提取图表资源,支撑文献分析研究
  • 基准测试:作为图表提取任务的标准化数据集,用于不同算法的性能对比与评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.68 MiB
最后更新 2026年2月13日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。