数据集概述
该数据集围绕Nudix超家族蛋白功能进化展开,整合了205个Nudix蛋白的实验与结构数据,修正并补充了基因本体注释,构建了序列比对与系统发育树,分析了水解酶基序下游环区的结构功能关系,揭示功能辐射的结构基础及系统发育规律。
文件详解
该数据集包含多种格式的文件,具体说明如下:
- 代码文件:
- 3DCOMB_alignment.py: Python脚本,用于3DCOMB序列比对相关分析
- generate_score_biochem_genetic.R、generate_score_final.R: R脚本,用于生成生化遗传评分及最终评分
- 序列比对文件(.fa格式):
- 78-PDB_alignment.fa: 78个Nudix蛋白的结构引导序列比对文件
- 46-PDB_alignment.fa: 46个Nudix蛋白的序列比对文件
- Nudix-clan_alignment.fa: Nudix超家族全 clan 的序列比对文件
- 其他.fa文件: 347个精选Nudix结构域等序列比对文件
- 评分数据文件(.csv格式):
- score_final.csv: 最终评分数据,包含up_id、go_term、score.x、score.y、stotal等字段
- score_biochem_genetic_soverall.csv: 生化遗传综合评分数据,包含up_id、go_term、stotal等字段
- 其他.csv文件: 生化遗传评分、遗传评分等细分数据文件
- 表格与注释文件(.xlsx格式):
- GOA_analysis_results.xlsx: 基因本体注释分析结果文件
- Nudix_data_collection.xlsx: Nudix数据收集汇总文件
- Final_score_assignment.xlsx: 最终评分分配文件
- 340_select_nudix_proteins.xlsx: 340个精选Nudix蛋白信息文件
- 系统发育树文件:
- Nudix-clan_tree.newick、347-select_tree.newick: Newick格式的系统发育树文件
- Nudix-clan_tree_reconciled.dendro、347-select_tree_reconciled.dendro: reconciliation后的系统发育树文件
- 文档与数据库文件:
- The_layout_of_the_Nudix_MySQL_database.pdf: Nudix MySQL数据库布局说明文档
- Pipelines_to_build_sequence_alignments_of_the_Nudix_superfamily.pdf: 序列比对构建流程文档
- Figure_7_347-select_tree_high_resolution.pdf、Figure_8_Nudix-clan_tree_high_resolution.pdf: 系统发育树高清图
- mysql_dump_char_nudix_04062014.sql: MySQL数据库备份文件
- Table S1 updated.doc: 更新后的补充表1文档
适用场景
- 分子生物学研究: 分析Nudix超家族蛋白的功能分类、结构演化及底物特异性机制
- 基因本体注释修正: 基于实验数据完善Nudix家族蛋白的基因本体注释信息
- 生物信息学分析: 利用序列比对与系统发育树数据开展蛋白家族进化研究
- 结构生物学研究: 探究Nudix水解酶基序下游环区的结构功能关系
- 蛋白质组学研究: 挖掘Nudix超家族蛋白的功能辐射与底物特异性进化规律