蛋白质类型分离训练测试数据集-2021-mehrankazeminia

蛋白质类型分离训练测试数据集-2021-mehrankazeminia 数据来源:互联网公开数据 标签:蛋白质,训练数据,测试数据,SMILES,指纹,数据分离,科研,机器学习,数据集 数据概述: 本数据集包含基于蛋白质类型分离的训练数据和测试数据。数据集通过“SMILES字符串的摩根指纹”方法生成。测试数据集包含了1674896条记录,而训练数据集则包含了2000000条记录。该数据集是Kaggle上“1-6 BELKA EDA Data Separation”笔记本的第一版结果,适用于机器学习和蛋白质分类研究。 数据用途概述: 该数据集适用于蛋白质分类模型的训练和测试、机器学习算法的评估、数据探索分析(EDA)等多种场景。研究人员可以利用此数据集进行蛋白质类型分类的研究;数据科学家可以使用该数据集训练和验证机器学习模型;生物信息学家则可以借此数据集进行蛋白质结构和功能的分析。该数据集为相关领域的研究提供了有价值的数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 371.91 MiB
最后更新 2025年5月9日
创建于 2025年5月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。