数据集概述
本数据集是用于从扫描电子学位论文中提取图表的基准数据集,包含标注文件、配置文件、代码文件等16个文件,支持图表提取任务的模型训练、验证与测试,为学术文档处理领域的图表检测研究提供标准化数据支撑。
文件详解
- 标注相关文件
- 文件名称:annotations.csv、annotations.json、figure_boundaries_train.json、figure_boundaries_validation.json、figure_boundaries_testing.json、figure_boundaries_test.json、figure_boundaries.json
- 文件格式:CSV、JSON
- 字段映射介绍:annotations.csv包含文件名、文件大小、区域数量、区域ID、区域形状属性等图表标注信息;各JSON文件记录训练、验证、测试等不同用途的图表边界标注数据
- 代码与配置文件
- 文件名称:download_etds.py、util.py、renderers.py、requirements.txt、environment.yaml
- 文件格式:PY、TXT、YAML
- 字段映射介绍:PY文件为数据下载与处理工具脚本;requirements.txt和environment.yaml记录依赖包版本;environment.yaml为环境配置文件
- 说明与辅助文件
- 文件名称:README.txt、LICENSE.txt、etd_urls.txt
- 文件格式:TXT
- 字段映射介绍:README.txt含数据集使用步骤说明;LICENSE.txt为许可文件;etd_urls.txt记录电子学位论文的URL信息
适用场景
- 学术文档图表提取模型开发:用于训练和测试扫描学位论文中的图表检测与提取算法
- 文档图像处理研究:支持扫描文档中图表区域的边界检测、分类等任务的算法验证
- 学术数据挖掘:辅助从大规模扫描学位论文中自动提取图表资源,支撑文献分析研究
- 基准测试:作为图表提取任务的标准化数据集,用于不同算法的性能对比与评估