数据集概述
本数据集包含基于加性方案(基团贡献模型)构建的梨形四膜虫毒性(THPT)相关模型,结合基团贡献方案与外部描述符,主要用于演示Ambit-GCM软件的使用,包含模型描述、输出结果、结构数据及特征文件等7个文件。
文件详解
- Model_TH_Description.pdf:PDF格式文档,可能包含模型构建背景、方法及结果的详细说明。
- Ambit-GCM_bondBased_out.txt:TXT格式文件,记录基于键的Ambit-GCM模型输出结果,含配置信息、训练集文件路径及局部/全局描述符(如A、H、Mv、Mp等)。
- Ambit-GCM_atomic_out.txt:TXT格式文件,记录基于原子的Ambit-GCM模型输出结果。
- TH_1093_v03.smi:SMI格式文件,可能包含梨形四膜虫毒性相关化合物的SMILES结构数据。
- TH_DragonDescr_shuffled.csv:CSV格式文件,含化合物描述符数据,字段包括row ID(行ID)、SMILES(化合物结构)、TH(毒性值)、MW(分子量)、AMW(平均分子量)等理化描述符。
- Weka_BestFirst_CfsSubsetEval.txt:TXT格式文件,记录使用Weka软件BestFirst算法结合CfsSubsetEval进行特征选择的结果。
- Weka_CorrelationAttributeEval_Ranker.txt:TXT格式文件,记录使用Weka软件CorrelationAttributeEval与Ranker进行特征评估的结果。
适用场景
- 毒理学研究:分析梨形四膜虫毒性与化合物结构基团的关联。
- 计算化学建模:验证基团贡献模型在毒性预测中的应用效果。
- 软件演示:作为Ambit-GCM软件使用方法的示例数据集。
- 特征选择研究:基于Weka输出结果分析毒性预测的关键描述符。