数据集概述
本数据集是对蛋白质数据库(PDB)的两次数据采集结果,包含2019年12月9日的v.1版本和2020年12月2日的v.2版本。数据分为原始数据文件和经字典解析后的结构化数据文件,涵盖不同数量的蛋白质结构信息,可用于蛋白质结构相关研究。
文件详解
- v.1版本文件
- 文件名称:structures.pkl
- 文件格式:.pkl
- 字段映射介绍:原始数据文件,包含133,737条蛋白质结构原始数据
- 文件名称:sensible_structures.pkl/.xml/.csv
- 文件格式:.pkl、.xml、.csv
- 字段映射介绍:经字典解析后的结构化数据文件,包含99,229条蛋白质结构信息,涵盖蛋白质ID、实验方法、分辨率、温度、pH值、试剂成分等字段(如CSV预览中显示的3UPU、VAPOR DIFFUSION HANGING DROP、3.3、291.1、6.5等)
- v.2版本文件
- 文件名称:structures_Dec2020.pkl
- 文件格式:.pkl
- 字段映射介绍:原始数据文件,包含144,656条蛋白质结构原始数据
- 文件名称:sensible_structures_Dec2020.pkl/.xml/.csv
- 文件格式:.pkl、.xml、.csv
- 字段映射介绍:经字典解析后的结构化数据文件,包含107,621条蛋白质结构信息,字段与v.1版本的结构化文件一致
数据来源
PDB数据库(Protein Data Bank)
适用场景
- 蛋白质结构研究:用于分析蛋白质的实验方法、分辨率、环境条件等特征与结构的关系
- 生物信息学分析:作为蛋白质结构数据来源,支持蛋白质结构预测、分类等算法开发与验证
- 药物研发辅助:通过蛋白质结构数据,为药物靶点筛选和分子对接提供基础信息
- 学术研究参考:为蛋白质结构相关的学术论文提供数据支持,如Lynch等人2020年发表的Patterns论文