CFA5蛋白质序列特征提取数据集

CFA5蛋白质序列特征提取数据集 数据来源:互联网公开数据
标签:蛋白质序列,特征提取,CFA5竞赛,机器学习,生物信息学,R语言,protr包

数据概述:
本数据集通过R语言的"protr"包对CFA5竞赛中的蛋白质序列进行了特征提取,提取方法包括提取氨基酸组成(AAC)、二肽组成(DC)、基于氨基酸组成的三肽描述符(CTDC)、基于氨基酸性质的三肽描述符(CTDD)、基于氨基酸序列的三肽描述符(CTDT)以及基于BLOSUM矩阵的特征提取(BLOSUM)。
数据集分为训练集和测试集,每类包含6个特征文件。训练集文件包含142,246行数据,对应142,246条训练序列;测试集文件包含141,865行数据,对应141,865条测试序列。

数据用途概述:
该数据集适用于蛋白质序列的特征分析、机器学习模型训练、模式识别以及生物信息学研究等场景。研究人员可利用这些特征数据进行分类、聚类或回归分析,以探索蛋白质序列的潜在规律;机器学习开发者可将其用于模型训练,提升蛋白质功能预测的准确性;生物信息学研究者也可基于这些特征数据进行深入的序列模式挖掘和功能预测研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 555.53 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。