数据集概述
本数据集通过深度学习工具Helixer对230个高质量superasterid基因组进行标准化从头注释,结合NLRtracker识别出91,366个NLRs及相关序列。数据按APG IV系统发育目分类存储,包含基因组组装、注释文件、NLR序列及补充元数据,支持superasterid植物NLR免疫受体的比较基因组学与进化研究。
文件详解
- 基因组注释文件(按系统发育目分类子目录)
- 包含文件:基因组组装FASTA、GFF注释、CDS FASTA、蛋白质FASTA
- 格式:FASTA、GFF
- 说明:按APG IV系统发育目划分,每个目子目录存储对应基因组的核心注释文件
- NLRtracker输出文件(各基因组目录下)
- 主要文件及格式:
- *_NLRtracker.tsv:NLR状态概览表格
- *_NLR.lst:NLR标识符列表
- *_NLR.gff3:NLR结构域注释(GFF3)
- *_NLR.fasta:NLR序列(FASTA)
- *_NLR-associated.lst:NLR关联基因标识符列表
- *_NBARC.fasta:NB-ARC结构域序列(FASTA)
- interpro_result.gff:InterProScan结构域注释(GFF)
- 说明:包含NLR及关联基因的序列、结构域注释、iTOL可视化文件等13类输出
- 补充数据文件
- Data_S1.xlsx:物种列表及元数据
- Data_S2.xlsx:各基因组蛋白质组、NLR数量统计及BUSCO评分表
数据来源
Dryad(https://doi.org/10.5061/dryad.sxksn03d6)
适用场景
- 植物免疫受体进化研究:分析91,366个NLRs在superasterid基因组中的分布与进化模式
- 比较基因组学分析:利用标准化注释文件开展不同目superasterid植物的基因组特征比较
- 植物抗病机制研究:通过NLR结构域注释探究植物对病原体的识别机制
- 基因组注释优化:评估深度学习工具在植物NLR注释中的准确性与适用性
- 生物信息学工具验证:以标准化数据集测试NLR识别工具的性能