数据集概述
本数据集为论文“High allelic diversity in Arabidopsis NLRs is associated with distinct genomic features”的中间数据,包含拟南芥Col-0生态型基因的甲基化、表达量数据,全基因及NLR基因的群体遗传学统计、结构域注释、选择压力分析等文件,支持研究NLR基因等位基因多样性与基因组特征的关联,总计16份文件。
文件详解
- 基因表达与甲基化数据
all_gene_multi_tissue_methylation.csv(CSV):拟南芥Col-0不同组织(茎生叶、胚胎、花芽、莲座叶)的CG甲基化百分比数据
all_gene_multi_tissue_expression.csv(CSV):拟南芥Col-0 52个样本的基因表达量数据
- 基因信息表格
all_gene_table.csv(CSV):全基因的名称、HV状态、表达量、甲基化率、与最近转座子距离、Pi值、Tajima's D等信息
NLR_gene_table.csv(CSV):NLR基因子集的信息,含聚类类型、结构域、系统发育分支、PiN/PiS、与最近NLR距离、突变概率得分等
Atha_NLR_common_names.csv(CSV):NLR基因ID与常用名称的匹配表
- 群体遗传学与选择分析
Athaliana_NLR_Entropy.tsv(TSV):拟南芥NLR基因的香农熵数据
popgen_per_domain.csv(CSV):NLR基因结构域水平的群体遗传学统计(D、PiN、PiS等)
egglib_window_stats.csv(CSV):NLR基因300bp滑动窗口分析结果(核苷酸中点、统计量等)
positive_selection.csv(CSV):NLR基因中受普遍/ episodic多样化选择的密码子百分比
- 注释与辅助文件
nlr_aa_annotation.csv(CSV):NLR基因主要结构域(NB-ARC、TIR、CC、LRR)的密码子比对坐标注释
nlrome_IDs.txt(TXT):用于全基因组群体遗传学分析的NLRome ID列表
- itol系列文件(XLSX):用于iTOL可视化的TE、HV、TPM、甲基化数据(如itol_te_500.xlsx)
- 说明文件
README:数据集内容说明文档
数据来源
论文“High allelic diversity in Arabidopsis NLRs is associated with distinct genomic features”
适用场景
- 植物免疫基因研究:分析拟南芥NLR基因等位基因多样性与基因组特征的关联机制
- 表观遗传学分析:利用多组织甲基化数据研究基因表达调控模式
- 群体遗传学研究:通过Pi、Tajima's D、选择压力等指标分析NLR基因的进化动态
- 基因结构域功能分析:结合结构域注释与群体遗传学统计,探究NLR结构域的功能分化
- 生物信息学可视化:使用itol系列文件构建拟南芥NLR基因的进化与功能特征可视化图谱