数据集概述
本数据集为PR2数据库的5.1.0版本,由多位研究者共同整理,涵盖了Chloropicophyceae、Apicomplexa、Picozoa、Rhodophyta等多个生物类群的核糖体相关数据,包含序列文件、分类信息及训练模型等多种格式文件。
文件详解
该数据集包含十一个文件,具体说明如下:
- 序列文件(.gz格式):
- pr2_version_5.1.0_SSU_taxo_long.fasta.gz:SSU核糖体RNA序列文件(长格式分类信息)
- pr2_version_5.1.0_SSU_mothur.fasta.gz:适用于Mothur软件的SSU序列文件
- pr2_version_5.1.0_SSU_mothur.tax.gz:适用于Mothur软件的分类信息文件
- pr2_version_5.1.0_SSU_UTAX.fasta.gz:适用于UTAX软件的SSU序列文件
- pr2_version_5.1.0_SSU_dada2.fasta.gz:适用于DADA2软件的SSU序列文件
- 压缩文件(.zip格式):
- pr2_version_5.1.0_emu.zip:适用于EMU软件的数据包
- 表格文件(.xlsx格式):
- pr2_version_5.1.0_merged.xlsx:合并后的数据集
- pr2_version_5.1.0_taxonomy.xlsx:分类学信息表
- pr2_version_5.1.0_chimera.xlsx:嵌合体序列信息表
- pr2_version_5.1.0_unassigned.xlsx:未分配序列信息表
- 训练模型文件(.rds格式):
- pr2_version_5.1.0_SSU.decipher.trained.rds:Decipher软件的训练模型文件
适用场景
- 微生物分类学研究:用于核糖体RNA序列的分类鉴定
- 生物信息学分析:适配Mothur、DADA2、UTAX等主流序列分析软件
- 环境微生物多样性分析:提供标准化的参考序列数据库
- 分子生态学研究:支持基于SSU核糖体RNA的群落组成分析