数据集概述
本数据集包含358个短链脱氢酶/还原酶(SDRs)和953个S-腺苷甲硫氨酸依赖甲基转移酶(SAM-MTases)的序列信息、AlphaFold2模型三维结构及底物分类标签,支持酶底物分类研究,共14个文件。
文件详解
- 序列文件
- 文件名称:SDR_sequences.fasta、SAM_sequences.fasta
- 文件格式:FASTA
- 字段映射介绍:包含SDRs和SAM-MTases的氨基酸序列信息
- 结构文件
- 文件名称:SDR_AlphaFold2_PDBs.zip、SAM_AlphaFold2_PDBs.zip
- 文件格式:ZIP(含PDB文件)
- 字段映射介绍:AlphaFold2预测的酶三维结构文件压缩包
- 聚类分类文件
- 文件名称:SDR_cluster_classifications_2DIMUMAP.csv、SAM_cluster_classifications_2DIMUMAP.csv
- 文件格式:CSV
- 字段映射介绍:SDRs(9类)和SAM-MTases(13类)的聚类分类结果
- 底物映射文件
- 文件名称:SDR_substrates_to_cluster_map_2DIMUMAP.csv、SAM_substrates_to_13clusters_map_2DIMUMAP.csv
- 文件格式:CSV
- 字段映射介绍:底物与聚类类别的映射关系,含SMILES表示
- 手动分类文件
- 文件名称:SDR_substructure_classifications.csv、SDR_cofactor_classifications.csv、SAM_protRNADNA_vs_compound.csv
- 文件格式:CSV
- 字段映射介绍:SDRs的辅因子/底物分类、SAM-MTases的生物聚合物/小分子底物分类
- 子结构搜索文件
- 文件名称:substructure_search_SMARTS.docx
- 文件格式:DOCX
- 字段映射介绍:定义底物类别的SMARTS字符串
- 说明文件
- 文件名称:README.txt
- 文件格式:TXT
- 字段映射介绍:数据集概述及说明
适用场景
- 酶底物分类研究:基于序列、结构和标签数据开发分类模型
- 酶结构功能分析:结合AlphaFold2结构研究酶与底物的相互作用
- 生物信息学算法验证:测试聚类、子结构搜索等算法在酶分类中的应用
- 酶工程应用:指导SDRs和SAM-MTases的底物特异性改造
- 代谢通路分析:通过底物分类揭示酶在代谢网络中的角色