数据集概述
本数据集包含甘蓝型油菜品种Tapidor的从头基因组组装,以及与改良组装的Darmor-bzh品种的比较数据。两者采用相同注释方法以实现基因内容对比,识别了各品种特有基因并区分组装注释差异导致的伪影,共含17个归档文件。
文件详解
- 基因组组装与注释文件
- 文件名称:Tapidor_v63_assembly.augustus_masked_filtered.gff.gz、Darmor_v81_assembly.augustus_masked_filtered.gff.gz
- 文件格式:.gz(压缩GFF)
- 字段映射介绍:包含Augustus注释的基因组组装基因结构信息,经过滤处理
- 蛋白质序列文件
- 文件名称:Tapidor_v63_assembly.all.maker.augustus_masked.proteins_filtered.fasta.gz、Darmor_v81_assembly.all.maker.augustus_masked.proteins_filtered.fasta.gz
- 文件格式:.gz(压缩FASTA)
- 字段映射介绍:过滤后的Augustus注释蛋白质序列
- 功能注释文件
- 文件名称:Tapidor_v63_assembly.all.maker.augustus_masked.proteins_Pfam_results.gff.gz、GO_Arabidopsis_Terms.zip
- 文件格式:.gz(压缩GFF)、.zip(压缩包)
- 字段映射介绍:包含Pfam结构域注释结果及拟南芥GO术语数据
- 基因组组装文件
- 文件名称:Darmor_v81_assembly.fasta.gz
- 文件格式:.gz(压缩FASTA)
- 字段映射介绍:Darmor-bzh品种的基因组组装序列
- 变异与重复序列相关文件
- 文件名称:Darmor_v81_Tapidor_Ningyou_SNPs.zip、Repetitive_Collapsed_Genes.zip、Repetitive_Collapsed_Regions.zip、MSTMap_Input.zip
- 文件格式:.zip(压缩包)
- 字段映射介绍:包含品种间SNP数据、重复序列塌陷相关基因及区域数据、遗传图谱构建输入数据
数据来源
论文“Assembly and comparison of two closely related Brassica napus genomes”
适用场景
- 植物基因组组装质量评估:对比两个近缘甘蓝型油菜品种的组装差异,分析重复序列塌陷对组装的影响
- 基因注释差异分析:研究相同注释流程对近缘品种基因预测结果的影响
- 品种特有基因识别:筛选Tapidor与Darmor-bzh各自特有的基因,排除组装注释伪影干扰
- 功能基因组学研究:利用蛋白质序列、Pfam注释及GO术语数据开展基因功能分析
- 基因组变异分析:基于SNP数据研究甘蓝型油菜品种间的遗传差异