数据集概述
本数据集包含使用Maker工具进行真核生物基因组注释的输入与输出文件,涵盖注释统计摘要、基因序列、训练模型、可视化图表等多种类型数据,为基因组注释研究提供完整的实验与分析资源。
文件详解
该数据集包含23个文件,具体说明如下:
- 统计摘要文件 (.txt格式):
- genome_annotation_statistics_summary_01.txt、genome_annotation_statistics_summary_02.txt、genome_annotation_statistics_summary_03.txt:基因组注释统计摘要文件
- BUSCO_short_summary_01.txt:BUSCO评估结果短摘要文件
- fasta_statistics.tabular:FASTA序列统计表格
- 其他未预览的.txt文件:可能包含补充统计信息
- 序列文件 (.fasta格式):
- cds.fasta、proteins.fasta、gffread_exons.fasta、genome.fasta、gffread_cds.fasta:基因序列相关文件,包含基因组、CDS、蛋白序列等
- 其他.fasta文件:可能为注释过程中的中间或结果序列文件
- 可视化与报告文件:
- genome_annotation_statistics_graphs_01.pdf、genome_annotation_statistics_graphs_02.pdf、genome_annotation_statistics_graphs_03.pdf:基因组注释统计图表
- jbrowse_report.zip:JBrowse报告压缩包
- BUSCO_full_table_01.tabular、BUSCO_missing_orthologs_01.tabular:BUSCO评估结果表格
- 模型与注释文件:
- august_trained_model.augustus:Augustus训练模型文件
- SNAP_trained_model.snaphmm:SNAP训练模型文件
- map_annotation_ids.gff3:基因注释ID映射文件
适用场景
- 基因组学研究:真核生物基因组结构与功能注释分析
- 生物信息学:基因组注释工具性能评估与模型优化
- 分子生物学:基因序列与蛋白序列特征分析
- 进化生物学:基于基因组注释的物种进化关系研究
- 生物统计学:基因组注释数据的统计建模与可视化分析