数据集概述
该数据集包含使用Maker工具进行真核生物基因组注释的输入与输出数据,涵盖统计摘要、序列文件、注释结果、可视化报告及训练模型等20个文件,为基因组注释结果的评估与分析提供全面支持。
文件详解
该数据集包含20个文件,具体说明如下:
- 统计摘要文件:
- fasta_statistics.tabular(.tabular格式):可能包含FASTA序列的统计信息
- BUSCO_short_summary_02.txt、BUSCO_short_summary_03.txt(.txt格式):BUSCO评估的简短摘要,版本为4.1.4,基于fungi_odb10谱系数据集
- BUSCO_full_table_01.tabular(.tabular格式):BUSCO评估的完整结果表格
- BUSCO_missing_orthologs_01.tabular(.tabular格式):缺失的BUSCO直系同源基因列表
- genome_annotation_statistics_summary_01.txt、genome_annotation_statistics_summary_02.txt、genome_annotation_statistics_summary_03.txt(.txt格式):基因组注释统计摘要
- 序列文件:
- gffread_cds.fasta、gffread_exons.fasta、gffread_translated_cds.fasta(.fasta格式):通过gffread提取的CDS、外显子及翻译后的CDS序列
- 注释文件:
- map_annotation_ids.gff3(.gff3格式):包含注释ID映射的GFF3文件
- 可视化报告:
- genome_annotation_statistics_graphs_01.pdf、genome_annotation_statistics_graphs_02.pdf、genome_annotation_statistics_graphs_03.pdf(.pdf格式):基因组注释统计图表
- jbrowse_report.zip(.zip格式):JBrowse可视化报告压缩包
- 训练模型文件:
- SNAP_trained_model.snaphmm(.snaphmm格式):SNAP工具的训练模型
- augus_trained_model.augustus(.augustus格式):Augustus工具的训练模型
适用场景
- 基因组学研究:评估真核生物基因组注释的完整性与准确性
- 比较基因组学分析:通过BUSCO结果分析物种间的直系同源基因分布
- 注释工具优化:基于训练模型改进SNAP、Augustus等注释工具的性能
- 基因组可视化:利用JBrowse报告展示注释结果
- 生物信息学教学:作为基因组注释流程的实践案例数据