BELKA药物预测训练数据集

BELKA药物预测训练数据集 数据来源:互联网公开数据
标签:BELKA,药物发现,机器学习,数据科学,蛋白质特征,训练数据,测试数据

数据概述:
本数据集是NeurIPS 2024比赛“使用BELKA预测新药物”的训练数据集,包含以下组成部分:
1. train_BELKA_balanced:从原始2.5亿行训练数据中提取的200万行平衡数据集,包含“bind”和“No-Bind”两类样本。
2. train_xxx.csv:针对特定蛋白质xxx的训练数据,包含额外的蛋白质特征。
3. test_xxx.csv:针对特定蛋白质xxx的测试数据,同样包含额外的蛋白质特征。

数据用途概述:
该数据集主要用于开发预测新药物的机器学习模型,支持针对不同蛋白质分别建模,并将模型结果合并后提交。研究人员和开发者可利用此数据集进行药物发现研究、模型性能优化以及机器学习算法的探索。此外,数据集还适用于蛋白质特征分析、药物-靶点结合预测等场景,为药物研发提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 122.32 MiB
最后更新 2025年4月18日
创建于 2025年4月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。