数据集概述
本数据集为论文《Evaluating scalable supervised learning for synthesize-on-demand chemical libraries》配套数据,包含16个文件,涵盖AMS和Enamine化学库的模型预测结果、采购化合物信息、训练数据、模型文件及聚类结果等,用于评估可扩展监督学习在按需合成化学库中的应用效果,支持化学信息学模型的验证与分析。
文件详解
- 模型预测与结果类
- ams_all_preds.csv.gz:CSV.gz格式,含AMS数据集经RF或基线模型预测的得分、排名,共8,187,682个化合物(已排除训练数据中存在的247,025个化合物)
- ams_order_results.csv.gz:CSV.gz格式,含1,024个采购自AMS库的化合物信息(排除4个未完全溶解的),包括化学特征、供应商信息、模型预测、筛选结果及聚类结果
- enamine_costs_clustered_v3_with_nneighbor.csv.gz:CSV.gz格式,含5,620个基于RF得分和可用性选择的Enamine化合物,包括Taylor-Butina聚类ID、近邻化合物信息、供应商数据、模型得分及化学特征
- enamine_dose_response_curves.tsv:TSV格式,含68个Enamine化合物三次实验的剂量反应曲线摘要(仅保留最高质量曲线),字段包括分子名称、SMILES、IC50值及置信区间等
- enamine_final_list.csv.gz:CSV.gz格式,含从enamine_top_10000.csv.gz筛选出的100个化合物,包括Enamine信息、RF得分、化学特征及聚类结果
- enamine_top_10000.csv.gz:CSV.gz格式,含Enamine REAL数据集经RF模型预测的前10,000个化合物,包括Enamine信息、模型得分、化学特征及聚类结果
- 模型文件类
- baseline_weight.npy:NPY格式,保存的Similarity Baseline模型(含训练数据中的活性化合物),用于AMS库评分
- random_forest_classification_139.pkl:PKL格式,保存的RF分类模型(超参数ID 139),用于AMS和Enamine REAL库评分
- 训练数据类
- cdd_training_data.tar.gz:压缩包格式,含从CDD导出的LC1234和MLPCN PriA-SSB筛选数据
- master_df.csv.gz:CSV.gz格式,cdd_training_data.tar.gz预处理后的输出,共441,900行
- training_df_single_fold.csv.gz:CSV.gz格式,training_folds.tar.gz中10个折叠合并后的数据集,含427,300个化合物
- training_df_single_fold_with_ams_clustering.csv.gz:CSV.gz格式,含427,300个训练化合物与1,024个测试AMS化合物的Taylor-Butina聚类ID(0.2、0.3、0.4阈值)、聚类中心化合物信息
- training_folds.tar.gz:压缩包格式,LC1234和MLPCN训练数据拆分为10个折叠,共427,300个化合物,用于交叉验证和模型选择
- 聚类与可视化类
- enamine_dose_response_curve_plots.xlsx:XLSX格式,含68个Enamine化合物三次实验的剂量反应曲线图(多次测试则同图显示多条曲线)
- train_ams_real_cluster.csv.gz:CSV.gz格式,含训练化合物、1,024个测试AMS化合物及Enamine top化合物的Taylor-Butina聚类ID(0.4阈值),包括化学特征、数据集归属、聚类中心及已知活性信息
数据来源
论文《Evaluating scalable supervised learning for synthesize-on-demand chemical libraries》(Journal of Chemical Information and Modeling 2023)
适用场景
- 化学信息学模型评估:用于验证可扩展监督学习模型在按需合成化学库中的预测性能、泛化能力
- 化合物筛选优化:基于模型预测结果和聚类信息,优化按需合成化学库的化合物选择策略
- 剂量反应分析:利用Enamine化合物的剂量反应数据,研究化合物活性与浓度的关系
- 化学库聚类分析:通过Taylor-Butina聚类结果,分析训练数据与测试化合物的结构相似性及多样性分布
- 监督学习模型应用:基于提供的RF和基线模型,开展新化合物库的虚拟筛选与评分