数据集概述
本数据集为拟议新物种Agrobacterium bohemicum sp. nov.的系统发育分析提供完整数据支持,包含基因组序列、基因文件、系统发育树及相关分析文件,覆盖从原始序列到分析结果的全流程数据。
文件详解
该数据集包含82个文件,具体说明如下:
- 基因组序列文件:
- 62个.gz格式压缩文件(如GCA_000349865.1_Cherry1.0_genomic.fna.gz):存储不同菌株的基因组序列
- 1个.fna格式文件(GCA_000731315.1_RG540_Ch_pA_genomic.fna):未压缩的基因组序列文件
- 1个.tar格式文件(VCFs.tar):压缩的变异数据文件
- 基因与蛋白数据文件:
- 3个.txt格式基因文件(如genes_R89noall5.txt):存储基因列表信息
- 2个.xlsx格式蛋白文件(如170719 R89 uniq proteins.xlsx):记录蛋白序列数据
- 1个.txt格式序列文件(sequence R89only.txt):包含假设蛋白的氨基酸序列
- 系统发育分析文件:
- 2个.pdf格式树文件(如agro WGS tree.pdf):展示系统发育树可视化结果
- 2个.mas格式比对文件(如align MLST trimmed.mas):存储多序列比对数据
- 2个系统发育树文件(tree_new.nwk、snp_tree.main_tree.newick):Newick格式的树结构数据
- 1个.fas格式比对文件(snp_tree.aln.fas):SNP比对序列文件
- 1个.mts格式会话文件(agro WGS tree session.mts):分析会话记录文件
适用场景
- 微生物分类学研究:支持Agrobacterium bohemicum sp. nov.新物种的系统发育验证
- 基因组进化分析:探究农杆菌属不同菌株的基因组变异与进化关系
- 比较基因组学研究:分析农杆菌属内基因与蛋白序列的差异特征
- 系统发育方法学应用:验证不同分析方法(如MLST、SNP分析)在物种鉴定中的效果