数据集概述
本数据集为研究“ChenseNet121:一种用于LD50毒性估算的新型深度学习架构”提供支持,专门用于训练和评估农药急性经口毒性(LD50)预测的多模态深度学习模型。数据集整合了每种化合物的多种数据表征,包括分子结构图像、3D体素化体积、理化描述符及CSV格式的整合数据集,遵循EFSA指南,支持基于图像、结构和生化特征的机器学习模型训练。
文件详解
该数据集以压缩包形式提供,包含以下类型的文件和目录:
- 压缩包文件:
- LD50_multimodal_dataset.zip:压缩包格式,包含所有数据文件
- 分子结构图像文件(位于images/目录下):
- PNG格式文件:分子结构2D图像,从PubChem下载,以化合物CID命名
- 3D体素化体积文件:
- .npy格式文件:基于分子对接模拟生成的3D体素化体积,针对人类乙酰胆碱酯酶(hAChE,PDB:7E3H)
- 理化描述符文件:
- dataset_descriptores_bool.txt:纯文本文件,包含布尔型理化描述符
- dataset_descriptores_float.txt:纯文本文件,包含浮点型理化描述符
- dataset_descriptores_2x2x2_bool.txt:纯文本文件,包含2x2x2布尔型理化描述符
- dataset_descriptores_2x2x2_float.txt:纯文本文件,包含2x2x2浮点型理化描述符
- CSV数据文件:
- combined_dataset.csv:CSV格式,整合数据集
- balanced_test.csv:CSV格式,用于分类任务的平衡测试子集
适用场景
- 农药毒性预测研究:训练和评估多模态深度学习模型,预测农药急性经口毒性(LD50)
- 深度学习架构开发:用于开发和测试如ChenseNet121等新型深度学习架构,比较不同模型(如ResNet、Inception、EfficientNet)的性能
- 毒理学数据分析:基于分子结构、理化性质和生化特征,分析农药毒性的关键影响因素
- 环境风险评估:支持遵循EFSA指南的农药环境风险评估研究
- 计算毒理学应用:推动计算毒理学领域中多模态数据整合方法的发展和应用