数据集概述
本数据集为Google Summer of Code 2025项目(MDAnalysis x ProLIF)的验证数据存档,核心包含plinder和pinder两种系统的测试、验证样本数据,以CSV文件记录系统信息,以ZIP压缩包存储分子指纹及质子化系统数据,用于氢键相互作用相关验证实验。
文件详解
- CSV数据文件(共4个):
- plinder_test_systems.csv:记录plinder测试系统信息,字段包括system_id(系统ID)、entry_pdb_id(PDB编号)、system_num_ligand_chains(配体链数)、system_num_protein_chains(蛋白链数)、ligand_instance_chain(配体实例链)、split(分组,值为test)
- pinder_test_systems.csv:记录pinder测试系统信息,字段包括split(分组)、id(系统ID)、pdb_id(PDB编号)、cluster_id(聚类ID)、uniprot_R(受体蛋白UniProt ID)、uniprot_L(配体蛋白UniProt ID)等
- plinder_val_systems.csv:记录plinder验证系统信息
- pinder_val_systems.csv:记录pinder验证系统信息
- ZIP压缩包文件(共6个):
- plinder_val_fps.zip:plinder验证集分子指纹压缩包
- pinder_val_fps.zip:pinder验证集分子指纹压缩包
- plinder_test_fps.zip:plinder测试集分子指纹压缩包
- pinder_test_fps.zip:pinder测试集分子指纹压缩包
- plinder_protonated_systems.zip:plinder质子化系统压缩包
- pinder_protonated_pdbs.zip:pinder质子化PDB文件压缩包
数据来源
GitHub仓库:https://github.com/yuyuan871111/GSoC2025_Hbond_PM/tree/main
适用场景
- 生物信息学研究:用于MDAnalysis与ProLIF工具的氢键相互作用验证实验
- 分子动力学分析:支撑基于隐式氢模型的蛋白质-配体氢键相互作用预测模型验证
- 结构生物学研究:辅助蛋白质-配体复合物系统的分子指纹与质子化状态分析
- 开源项目验证:为Google Summer of Code 2025相关项目提供测试与验证数据支持