Sensible_Structures_PDB数据库数据采集_蛋白质结构分析数据

数据集概述

本数据集是对蛋白质数据库(PDB)的两次数据采集结果,包含2019年12月9日的v.1版本和2020年12月2日的v.2版本。数据分为原始数据文件和经字典解析后的结构化数据文件,涵盖不同数量的蛋白质结构信息,可用于蛋白质结构相关研究。

文件详解

  • v.1版本文件
  • 文件名称:structures.pkl
  • 文件格式:.pkl
  • 字段映射介绍:原始数据文件,包含133,737条蛋白质结构原始数据
  • 文件名称:sensible_structures.pkl/.xml/.csv
  • 文件格式:.pkl、.xml、.csv
  • 字段映射介绍:经字典解析后的结构化数据文件,包含99,229条蛋白质结构信息,涵盖蛋白质ID、实验方法、分辨率、温度、pH值、试剂成分等字段(如CSV预览中显示的3UPU、VAPOR DIFFUSION HANGING DROP、3.3、291.1、6.5等)
  • v.2版本文件
  • 文件名称:structures_Dec2020.pkl
  • 文件格式:.pkl
  • 字段映射介绍:原始数据文件,包含144,656条蛋白质结构原始数据
  • 文件名称:sensible_structures_Dec2020.pkl/.xml/.csv
  • 文件格式:.pkl、.xml、.csv
  • 字段映射介绍:经字典解析后的结构化数据文件,包含107,621条蛋白质结构信息,字段与v.1版本的结构化文件一致

数据来源

PDB数据库(Protein Data Bank)

适用场景

  • 蛋白质结构研究:用于分析蛋白质的实验方法、分辨率、环境条件等特征与结构的关系
  • 生物信息学分析:作为蛋白质结构数据来源,支持蛋白质结构预测、分类等算法开发与验证
  • 药物研发辅助:通过蛋白质结构数据,为药物靶点筛选和分子对接提供基础信息
  • 学术研究参考:为蛋白质结构相关的学术论文提供数据支持,如Lynch等人2020年发表的Patterns论文
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1022.58 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。