数据集概述
本数据集为AGIMA-Score模型构建提供支持,包含训练、验证、测试数据集及索引文件,还提供预训练模型的Docker容器和模型预测结果。核心内容是蛋白质-配体复合物的原子属性数据与结合亲和力标签,可用于分子建模和药物发现相关研究。
文件详解
- 训练数据集:
- 文件名称:training.zip
- 文件格式:ZIP
- 内容说明:源自PDBbind V2020 Refined Set的二次数据集,包含5007个复合物,已移除与验证/测试集相似的样本
- 验证数据集:
- 文件名称:validation.zip
- 文件格式:ZIP
- 内容说明:源自PDBbind V2020 Core Set (CASF-2016),包含195个复合物,已移除与训练集相似的样本,用于模型参数调优
- 测试数据集1:
- 文件名称:test1.zip
- 文件格式:ZIP
- 内容说明:源自CSAR-HiQ1,包含116个复合物,已移除与训练/验证集相似的样本,用于模型测试
- 测试数据集2:
- 文件名称:test2.zip
- 文件格式:ZIP
- 内容说明:源自CSAR-HiQ2,包含102个复合物,已移除与训练/验证/测试1集相似的样本,用于模型测试
- 索引文件:
- 文件名称:indexes.zip
- 文件格式:ZIP
- 内容说明:包含训练、验证、测试1、测试2集复合物的结合亲和力标签数据
- Docker容器:
- 文件名称:docker.zip
- 文件格式:ZIP
- 内容说明:含预安装的AGIMA-Score18模型,包括模型文件、Docker配置文件、依赖清单、示例文件及使用说明
- 模型预测结果:
- 文件名称:predictions_byAGIMAscore18.zip
- 文件格式:ZIP
- 内容说明:包含AGIMA-Score18模型对验证集、测试1集、测试2集的预测结果文件
- 原子属性文件(xxxx_atm_prop.txt):
- 文件格式:TXT
- 字段说明:记录蛋白质-配体复合物的原子信息,包括原子ID、原子序数、坐标、元素类型标记、杂化类型、邻接原子数、药效团属性、电荷、离子化能力、排除体积、范德华半径、分子类型(蛋白质/配体)及邻接原子共价键信息
适用场景
- 药物分子亲和力预测模型训练: 利用训练集数据构建和优化AGIMA-Score模型,预测蛋白质-配体结合亲和力
- 模型性能验证与评估: 通过验证集和测试集评估模型的预测准确性和泛化能力
- 分子建模工具开发: 基于Docker容器中的预训练模型,开发药物发现相关的分子建模应用
- 药物研发辅助分析: 利用模型预测结果辅助筛选潜在药物分子,加速药物研发进程
- 分子结构属性研究: 分析原子属性数据,探究分子结构与结合亲和力之间的关系