数据集概述
本数据集为研究小单孢菌科生物合成基因簇(BGC)多样性的配套数据,包含42株菌株(41株小单孢菌科、1株链霉菌科)的基因组分析结果,涉及基因簇预测、分类、可视化等多类数据文件及分析脚本,支持相关领域的深入研究。
文件详解
该数据集包含12个主要数据文件夹和补充信息,具体说明如下:
- Data S1文件夹:含42株菌株的所有fasta格式文件
- Data S2文件夹:含antiSMASH v5.1.1预测的BGC区域.gbk格式文件(用于BiG-SCAPE和BiG-SLiCE分析)
- Data S3文件夹:含antiSMASH v6.1.0预测的BGC区域.gbk格式文件
- Data S4文件夹:含42株菌株的Quast输出结果
- Data S5文件夹:含42株菌株的BUSCO输出结果及信息提取脚本
- Data S6文件夹:含GTDB分类结果和FastANI(95%阈值)物种分组结果
- Data S7文件夹:含基于antiSMASH v5.1.1 BGC信息的iTOL兼容条形图注释文件
- Data S8文件夹:含描述antiSMASH、BiG-SCAPE等程序参数的Word文档及批处理脚本
- Data S9文件夹:含38株小单孢菌(QC过滤后)的BiG-SCAPE Cytoscape可视化结果
- Data S10文件夹:含BiG-SLiCE预处理数据集及779个BGC的查询结果
- Data S11文件夹:含图表再生脚本及分析用相关数据
- Data S12文件夹:含WMMA1947与WMMD1120菌株铁载体contig的核苷酸blast结果
- 补充文件:Alas, Bugni et. al. SI doc.pdf(PDF格式补充说明文档)
适用场景
- 微生物基因组学研究:分析小单孢菌科生物合成基因簇多样性
- 天然产物发现:挖掘潜在的新型次级代谢产物合成基因簇
- 生物信息学方法验证:测试antiSMASH、BiG-SCAPE等工具在微生物BGC分析中的应用
- 系统发育分析:基于GTDB分类和FastANI结果研究菌株亲缘关系
- 生物合成基因簇比较:对比不同版本antiSMASH预测结果的差异