EBPI_Based_生物途径图像信息提取机器学习框架数据

数据集概述

本数据集为生物途径图像信息提取的机器学习框架相关数据,包含466种目标化学品的筛选与统计信息、箭头检测的训练验证及测试数据集与标签、EBPI工具提取的反应信息,以及基于BioBERT的文本分类数据集,覆盖图像检测与文本分类两类机器学习任务的相关数据。

文件详解

  • 466 target chemicals_selected chemicals.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:记录未被MetaNetX和KEGG覆盖生化反应的466种目标化学品筛选信息
  • 466 target chemicals_statistics.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:统计466种目标化学品对应的MetaCyc反应、论文及途径图像数量
  • arrow detection_bounding box labels.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含训练验证集6471张图像和测试集100张图像的箭头检测 bounding box 标签
  • arrow detection_test dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:Faster R-CNN箭头检测模型的测试数据集,含来自89篇PMC论文的100张图像
  • arrow detection_training and validation datasets.zip
  • 文件格式:ZIP
  • 字段映射介绍:Faster R-CNN箭头检测模型的训练验证数据集,含2332张原始图像与4139张增强图像,共6471张
  • EBPI outputs.txt
  • 文件格式:TXT
  • 字段映射介绍:记录EBPI工具从466种目标化学品的49846张生物途径图像中提取的反应信息,包含化学品、图像来源、反应、基因、蛋白等字段
  • text classification_training, validation and test datasets.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:BioBERT文本分类数据集,含59370个术语,分为15101个“gene”、21417个“protein”、22852个“others”术语

数据来源

论文“A machine learning framework for extracting information from biological pathway images in the literature”

适用场景

  • 生物途径图像信息提取研究:利用箭头检测数据集训练优化Faster R-CNN模型,实现途径图像中箭头的自动检测
  • 生物医学文本分类分析:基于BioBERT文本分类数据集,开展基因、蛋白相关术语的分类任务研究
  • 生物化学反应信息挖掘:通过EBPI输出数据,提取生物途径图像中的反应信息,补充现有数据库未覆盖的内容
  • 机器学习模型性能验证:使用提供的训练、验证、测试数据集,验证图像检测与文本分类模型的泛化能力
  • 生物基化学品研究支持:依托466种目标化学品的统计数据,分析其相关反应、文献及图像资源分布情况
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 911.93 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。