EconBiz_Based_经济学学术图表文本提取图像数据集

数据集概述

本数据集是经济学领域的学术图表文本提取语料库,包含121张学术图表,随机抽取自EconBiz的288,000篇开放获取出版物。图表类型涵盖条形图、饼图、折线图、地图、散点图等,所有图表均经过人工标注形成黄金标准,用于评估文本提取工具。

文件详解

  • 文件名称:EconBiz.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含图表图像文件及对应的标注文件。标注文件含TSV格式(每行为文本行,包含边界框中心坐标、宽高、旋转角度、文本内容)、JSON格式的真实标注数据,以及描述图表和来源的ReadMe文件。

数据来源

EconBiz开放获取出版物库

适用场景

  • 学术图表文本提取工具评估: 用于测试和比较不同工具从经济学学术图表中提取文本的准确性和效率。
  • 经济学文献数据挖掘: 提取图表中的隐藏信息,补充文献正文未涵盖的内容。
  • 数据可视化文本识别研究: 针对条形图、地图等多种图表类型,优化文本识别算法的鲁棒性。
  • 开放学术资源利用: 基于EconBiz开放出版物的图表数据,开展跨学科的文本提取应用研究。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.34 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。