数据集概述
本数据集包含42种苔藓植物的细胞器基因RNA编辑位点及核编码PPR蛋白序列数据,涵盖31种非地钱类苔藓植物的128个细胞器基因中7428个RNA编辑位点,以及25059条PPR蛋白序列。数据可用于研究RNA编辑位点数量与GC含量、核PPR蛋白多样性的关联,是探索植物RNA编辑进化机制的基础数据。
文件详解
- 模型文件(org-nt-model.txt)
- 文件格式:TXT
- 字段映射介绍:定义DNA序列分区信息,包含cp_pos1(叶绿体密码子第一位)、cp_pos2(叶绿体密码子第二位)、cp_pos3(叶绿体密码子第三位)、mt_pos1(线粒体密码子第一位)、mt_pos2(线粒体密码子第二位)、mt_pos3(线粒体密码子第三位)的序列范围
- 系统发育文件(RAxML_bipartitionsBranchLabels.nt)
- 文件格式:NT
- 内容说明:包含基于核苷酸序列构建的系统发育树及分支标签信息
- 核苷酸序列文件(org-nt.txt)
- 文件格式:TXT
- 内容说明:苔藓植物细胞器核苷酸序列数据
- 过滤脚本(single_snp_filter.pl)
- 文件格式:PL
- 内容说明:用于单核苷酸多态性过滤的Perl脚本
- 基因组压缩包(draft_organellar_genomes.zip)
- 文件格式:ZIP
- 内容说明:苔藓植物细胞器基因组草稿序列压缩文件
数据来源
论文“The amount of RNA editing sites in liverwort organellar genes is correlated with GC content and nuclear PPR protein diversity”
适用场景
- 植物RNA编辑进化研究: 分析苔藓植物细胞器基因RNA编辑位点的分布特征及进化规律
- 基因编辑与GC含量关联分析: 探究RNA编辑位点数量与蛋白编码基因GC含量的相关性
- 核PPR蛋白多样性研究: 分析核编码PPR蛋白序列多样性与RNA编辑效率的关系
- 苔藓植物分子系统发育分析: 利用系统发育文件构建苔藓植物的进化关系
- 基因组数据挖掘: 通过草稿基因组压缩包获取苔藓植物细胞器基因组的原始序列信息