托克斯24挑战药物分子结合活性预测数据集2021-antoninadolgorukova
数据来源:互联网公开数据
标签:Tox24挑战,机器学习,药物设计,蛋白-配体相互作用,化学结合活性,SMILES数据,特征提取,模型预测
数据概述:
本数据集及配套的Jupyter Notebook是为了解决Tox24挑战并展示机器学习如何用于预测特定目标蛋白(如转甲状腺素TTR)的结合活性而创建的。数据集包含了从PubChem获取的1512种竞赛化学物质的SMILES表示,并进行了清理和预处理。数据集还包括使用不同SMILES表示形式计算出的分子描述符,并通过XGBoost评估了这些描述符的性能。此外,数据集中还包含了通过特征工程计算出的特征集,并使用XGBoost评估了这些特征集的表现。特征选择过程通过Kaggle上的不同Notebook实现,包括基于集群的特征选择方法,分别适用于XGBoost和LightGBM模型。模型文件夹中保存了对500种测试化学物质的预测结果,这些预测结果通过XGBoost和LightGBM模型得出,并用于最终的集成预测。数据集中的TTR补充表取自Tox24挑战附带的文章,包括反应组分概述、自动荧光化学物质列表、因干扰而排除的化学物质列表以及单浓度和浓度响应测试中的化学物质列表。
数据用途概述:
该数据集适用于药物设计研究、蛋白-配体相互作用研究以及机器学习模型开发,特别是针对化学结合活性的预测。研究人员可以利用此数据集进行药物分子的结合活性预测、特征选择和模型优化。此外,数据集还适合用于教学和培训,帮助学习者理解机器学习在生物化学和药物开发中的应用。