数据集概述
本数据集为JEDI论文配套数据,包含多组应用示例的ASV表、改进版nf-core/ampliseq流程文件及SSU rRNA基因特定可变区的 curated参考数据库,覆盖V3V5和V4V9区域,支持微生物群落分析研究。
文件详解
该数据集包含三类核心文件,具体说明如下:
- ASV表文件:
- AE1-ROSCOFF_ALGAE相关:
- AE1-ROSCOFF_ALGAE-sample_meta.tsv: TSV格式,多细胞共生体应用示例的样本描述表
- AE1-ROSCOFF_ALGAE-ssu-v4v5-main.zip: 构建SSU V4V5 ASV表的脚本与参数文件压缩包
- AE1-ROSCOFF_ALGAE-ssu_v4v5_ampliseq_table.tsv.gz: 含六十九个字段的ASV表,ASV以序列md5值标识,采用SILVA 138.1数据库进行分类注释
- AE1-TREC_RHIZO相关:
- AE1-TREC_RHIZO-ssu_v4v5_ampliseq_table.tsv.gz: 含九十七个字段的ASV表,ASV以序列md5值标识
- AE1-TREC_RHIZO-ssu_v4v5_asv_tax_pr2.tsv.gz: PR2 5.0.0数据库的分类注释结果表
- AE1-TREC_RHIZO-ssu_v4v5_asv_tax_silva.tsv.gz: SILVA 138.2数据库的分类注释结果表
- AE2-SOMLIT_ASTAN相关:
- AE2-SOMLIT_ASTAN-18s-v4-v1.0.0.zip: 构建18S V4 ASV表的脚本与参数文件压缩包
- AE2-SOMLIT_ASTAN-18s_v4_ampliseq_table.tsv.gz: 含三百九十个字段的ASV表,采用PR2 5.0.0数据库注释
- AE2-SOMLIT_ASTAN-ssu-v4v5-main.zip: 构建SSU V4V5 ASV表的脚本与参数文件压缩包
- AE2-SOMLIT_ASTAN-ssu_v4v5_ampliseq_table.tsv.gz: 含一百七十七个字段的ASV表,采用PR2 5.0.0数据库注释
- AE2-SOMLIT_ASTAN-ssu_v4v5_asv_tax_silva.tsv.gz: SILVA 138数据库的分类注释结果表
- AE3-TREC相关:
- AE3-TREC-18s-v9-main.zip: 构建18S V9 ASV表的脚本与参数文件压缩包
- AE3-TREC-18s_v9_ampliseq_table.tsv.gz: 含七十三个字段的ASV表,采用PR2 5.0.0数据库注释
- AE3-TREC-18s_v9_meta.txt: TSV格式,18S V9样本描述表
- AE3-TREC-ssu-v4v5-main.zip: 构建SSU V4V5 ASV表的脚本与参数文件压缩包
- AE3-TREC-ssu_v4v5_ampliseq_table.tsv.gz: 含七十三个字段的ASV表,采用PR2 5.0.0数据库注释
- AE3-TREC-ssu_v4v5_asv_tax_silva.tsv.gz: SILVA 138.1数据库的分类注释结果表
- AE3-TREC-ssu_v4v5_meta.txt: TSV格式,SSU V4V5样本描述表
- 流程文件:
- ampliseq-consensus-merge-pairs-approach.tar.gz: 改进版nf-core/ampliseq流程压缩包,包含共识合并对方法
- 参考数据库文件:
- V3V5-REF_SP-seqs.fa.gz: V3V5区域REF_SP版本序列文件
- V3V5-REF_SP-taxonomy.txt.gz: V3V5区域REF_SP版本分类注释文件
- V3V5-REF_SQ-seqs.fa.gz: V3V5区域REF_SQ版本序列文件
- V3V5-REF_SQ-taxonomy.txt.gz: V3V5区域REF_SQ版本分类注释文件
- V4V9-REF_SP-seqs.fa.gz: V4V9区域REF_SP版本序列文件
- V4V9-REF_SP-taxonomy.txt.gz: V4V9区域REF_SP版本分类注释文件
- V4V9-REF_SQ-seqs.fa.gz: V4V9区域REF_SQ版本序列文件
- V4V9-REF_SQ-taxonomy.txt.gz: V4V9区域REF_SQ版本分类注释文件
适用场景
- 微生物群落分析: 用于处理和分析18S rRNA基因不同可变区的扩增子测序数据
- 生物信息学流程开发: 参考改进版nf-core/ampliseq流程的共识合并对方法
- 参考数据库构建: 研究SSU rRNA基因特定可变区参考数据库的构建方法
- 环境微生物研究: 分析不同环境样本(如土壤、水体)中的微生物群落组成
- 生物信息学教学: 作为扩增子数据分析流程的教学案例和实践数据