蛋白质二级结构预测数据集2022-kirkdco
数据来源:互联网公开数据
标签:蛋白质,二级结构,生物信息学,氨基酸序列,结构生物学,科学数据,教育,科研
数据概述:
本数据集是蛋白质二级结构数据集的更新版本,包含蛋白质序列及其在三维晶体结构中观察到的二级结构信息。数据集选自RCSB-PDB数据库(截至2022年8月6日),并基于特定的序列同源性百分比和晶体结构分辨率进行筛选。数据集包括多个文件,每个文件对应不同的筛选条件,提供了不同级别的序列同源性(25%、30%)和结构分辨率(2.0 Å、2.5 Å)的蛋白质序列和二级结构数据。每个蛋白质序列都提供了SST-8和SST-3两种分类的二级结构信息。SST-8分类包括8种二级结构类型,而SST-3则是对SST-8分类的简化和合并。
数据集的原始版本创建于2018年,包含9078条序列,长度范围从20到1632个氨基酸。本次更新使用了最新数据,并放松了某些筛选标准,具体包括:
- 序列同源性百分比:25% 和 30%
- 晶体结构分辨率:2.0 Å 和 2.5 Å
通过新的代码,下载了超过15500个PDB结构文件,并使用BioPython和DSSP工具生成了所有SST3和SST8结构信息,这使得数据集中的结构数量显著增加。
数据用途概述:
该数据集适用于蛋白质结构生物学研究、生物信息学分析、教育和科研等场景。研究人员可以利用此数据进行蛋白质二级结构预测模型的开发和验证;教育者可以使用该数据集进行蛋白质结构生物学的教学;学生可以通过探索数据集加深对蛋白质二级结构的理解。此外,数据集也适用于生物信息学相关课程的实践项目。