Dryad_Based_superasterid基因组深度学习NLR注释数据集v250214_91366

数据集概述

本数据集通过深度学习工具Helixer对230个高质量superasterid基因组进行标准化从头注释,结合NLRtracker识别出91,366个NLRs及相关序列。数据按APG IV系统发育目分类存储,包含基因组组装、注释文件、NLR序列及补充元数据,支持superasterid植物NLR免疫受体的比较基因组学与进化研究。

文件详解

  • 基因组注释文件(按系统发育目分类子目录)
  • 包含文件:基因组组装FASTA、GFF注释、CDS FASTA、蛋白质FASTA
  • 格式:FASTA、GFF
  • 说明:按APG IV系统发育目划分,每个目子目录存储对应基因组的核心注释文件
  • NLRtracker输出文件(各基因组目录下)
  • 主要文件及格式:
  • *_NLRtracker.tsv:NLR状态概览表格
  • *_NLR.lst:NLR标识符列表
  • *_NLR.gff3:NLR结构域注释(GFF3)
  • *_NLR.fasta:NLR序列(FASTA)
  • *_NLR-associated.lst:NLR关联基因标识符列表
  • *_NBARC.fasta:NB-ARC结构域序列(FASTA)
  • interpro_result.gff:InterProScan结构域注释(GFF)
  • 说明:包含NLR及关联基因的序列、结构域注释、iTOL可视化文件等13类输出
  • 补充数据文件
  • Data_S1.xlsx:物种列表及元数据
  • Data_S2.xlsx:各基因组蛋白质组、NLR数量统计及BUSCO评分表

数据来源

Dryad(https://doi.org/10.5061/dryad.sxksn03d6

适用场景

  • 植物免疫受体进化研究:分析91,366个NLRs在superasterid基因组中的分布与进化模式
  • 比较基因组学分析:利用标准化注释文件开展不同目superasterid植物的基因组特征比较
  • 植物抗病机制研究:通过NLR结构域注释探究植物对病原体的识别机制
  • 基因组注释优化:评估深度学习工具在植物NLR注释中的准确性与适用性
  • 生物信息学工具验证:以标准化数据集测试NLR识别工具的性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.09 MiB
最后更新 2025年12月31日
创建于 2025年12月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。