数据集

人类蛋白质嵌入数据集-2021-alexandervc

人类蛋白质嵌入数据集-2021-alexandervc 数据来源：互联网公开数据标签：蛋白质,嵌入,生物信息学,机器学习,蛋白质分类,次级结构预测,子细胞定位数据概述：本数据集包含使用bio_embeddings工具通过ProtT5嵌入器计算的人类蛋白质组（来自SwissProt数据库，下载于2021年6月9日）的残基和序列嵌入。数据集还包括使用LA模型进行的序列级别子细胞定位预测（共10个类别）以及使用ProtTrans模型进行的残基级别三级次级结构预测（α螺旋、β折叠或其他）。此外，数据集还包含使用protBert模型生成的蛋白质嵌入，涵盖了CAFA5数据库中训练集的前70000个蛋白质。这些嵌入数据有助于蛋白质功能预测、分类和结构分析。数据用途概述：该数据集适用于蛋白质生物信息学研究、机器学习模型训练、蛋白质功能预测、次级结构分析以及子细胞定位预测等多种场景。研究人员可以利用这些嵌入数据进行蛋白质分类和功能注释；生物信息学家可以使用这些数据进行蛋白质结构建模和功能预测；教育者可以利用这些数据进行教学和科研演示。通过分析这些嵌入数据，可以更好地理解和预测蛋白质的行为和功能，从而推动生物医学研究的发展。

数据与资源

versions_20250407070509.zipZIP
671.21 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	671.21 MiB
最后更新	2025年6月4日
创建于	2025年6月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

人类蛋白质嵌入数据集-2021-alexandervc

数据与资源

附加信息

注册成功！