数据集概述
本数据集包含ATCC Even Mock Community的16S rRNA基因参考序列及相关辅助文件,旨在支持微生物组分析中的模拟群落(mock community)质控与偏差评估。数据涵盖适用于DADA2分析工具的参考序列文件、数据库文件、物种信息表及流程复现代码,共9个文件,可用于微生物组实验中阳性对照的物种分类注释与偏差验证。
文件详解
- 参考序列文件
- 文件名称:ATCC_Even_Mock_community_GTDBr202.fa、ATCC_Even_Mock_community_RefSeq.fa
- 文件格式:FA
- 字段映射介绍:适用于DADA2 assignTaxonomy命令的参考序列文件,包含ATCC Even Mock Community中20个物种的16S rRNA基因序列,分别基于GTDB r202和RefSeq数据库构建。
- 数据库文件
- 文件名称:RefSeq_16S_6-11-20_RDPv16_fullTaxo.fa.gz、all_GTDBr202_16S_seqs.fa.gz
- 文件格式:FA.GZ
- 字段映射介绍:原始数据库文件,包含RefSeq(结合RDP v16分类)和GTDB r202的16S rRNA基因序列集合,用于构建上述参考序列文件。
- 物种信息与分类映射文件
- 文件名称:ATCC_Mock_Info_Found.xlsx、ATCC_GTDB_key.xlsx、ATCC_GTDBr202_IDs.txt、mock_species.txt
- 文件格式:XLSX、TXT
- 字段映射介绍:记录ATCC Mock物种的基本信息、GTDB分类体系的物种-序列ID映射关系及物种列表。
- 流程复现代码
- 文件名称:renameGTDB_extract_ATCC_Mocks.sh
- 文件格式:SH
- 字段映射介绍:用于生成参考序列文件的Bash脚本,支持流程重现。
适用场景
- 微生物组实验质控: 作为ATCC Even Mock Community的参考序列,用于评估测序与分析流程的物种分类准确性及偏差。
- 生物信息学工具验证: 结合DADA2等工具,验证微生物组分析流程中物种注释的可靠性。
- 模拟群落分析方法开发: 支持微生物组模拟群落数据分析方法的测试与优化。
- 微生物组研究教学: 用于微生物组分析实验的教学演示与实践操作。