PubChem筛选数据提取的化合物谱矩阵数据集

数据集概述

本数据集包含从PubChem筛选数据中提取的化合物谱矩阵,涵盖不同来源(确证/初级实验)的多个矩阵文件,记录化合物库针对靶点组的实验结果,为化学信息学和化学基因组学应用提供数据支持。

文件详解

  • 数据文件(CSV格式):
  • Matrix1.csv:确证实验数据的完整矩阵,含53个实验和109,925个化合物,行代表PubChem化合物ID(CID),列代表实验ID(AI开头)
  • Matrix2.csv:确证实验数据矩阵,密度96%,含53个实验和143,310个化合物,结构同Matrix1.csv
  • Matrix3.csv:初级实验数据的完整矩阵,含171个实验和224,251个唯一化合物,结构同Matrix1.csv
  • 说明文档(PDF格式):
  • Targets in Matrix 1 and 2.pdf:介绍Matrix1和Matrix2包含的靶点信息
  • Targets in Matrix 3.pdf:介绍Matrix3包含的靶点信息
  • 补充说明(TXT格式):
  • Readme.txt:提供数据集的基本说明,包括各矩阵的实验来源、规模和密度等信息

数据来源

PubChem BioAssay数据库

适用场景

  • 化学信息学研究:用于分析化合物-靶点的结构-活性关系
  • 机器学习模型开发:支持多任务活性预测模型的训练与评估
  • 化学基因组学分析:探究化合物与靶点之间的相互作用模式
  • 药物研发辅助:为药物候选化合物的筛选和优化提供数据参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 105.18 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。