蛋白质二级结构预测基准数据集CASP12-CB513-TS115

蛋白质二级结构预测基准数据集CASP12-CB513-TS115 数据来源:互联网公开数据
标签:蛋白质,二级结构,生物信息学,机器学习,结构预测,三态分类,八态分类

数据概述:
本数据集整合了CASP12、CB513和TS115三个基准数据集,用于蛋白质二级结构的预测研究。数据集中包含肽序列及其对应的二级结构注释,涵盖了八种二级结构类型:α-螺旋(H)、β-折叠(E)、环/无规则卷曲(C)、β-桥(B)、3-螺旋(G)、π-螺旋(I)、转角(T)和弯曲(S)。数据集共包含8679条非冗余肽链,其中25%用于训练模型,其余用于验证和测试。

数据用途概述:
该数据集适用于蛋白质二级结构预测模型的训练与评估,支持研究者开发更高效的预测算法。应用场景包括但不限于药物研发(通过解析蛋白质结构优化小分子药物)、生物工程(设计具有特定功能的蛋白质)以及基础生物研究(探索蛋白质结构与功能的关系)。此外,数据集也可用于教育和培训,帮助学习者理解蛋白质结构预测的基本原理和方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 14:48 (UTC)
创建于 四月 14, 2025, 14:48 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。