数据集概述
本数据集源自AIDS抗病毒筛选数据库的活性化合物,包含两千种化学化合物,部分为非连接结构。这些化合物按HIV活性分为训练集、验证集和测试集,用于支持图模式识别与机器学习模型的训练、参数优化及测试。
文件详解
- 压缩文件
- 文件名称:Fingerprint.zip、Letter.zip、AIDS.zip、Protein.zip、COIL-DEL.zip、COIL-RAG.zip、GREC.zip、Mutagenicity.zip等
- 文件格式:ZIP
- 字段映射介绍:各压缩文件包含对应主题的图数据,具体字段需解压后查看,推测包含化合物结构的图表示、节点属性、边属性及HIV活性标签等信息。
数据来源
AIDS Antiviral Screen Database of Active Compounds
适用场景
- 图模式识别模型训练: 利用训练集数据开发基于图结构的化学化合物分类算法。
- 机器学习参数优化: 通过验证集数据调整模型参数,提升HIV活性分类准确性。
- 图核方法性能测试: 使用测试集数据评估不同图核方法(如Graph Laplacian kernel)的分类效果。
- 化学信息学研究: 分析化合物结构与HIV活性的关联,支持药物发现相关研究。