数据集概述
本数据集是禾本科系统发育研究工作组III(GPWG III)的数据仓库,包含基于核基因(Angiosperm353基因集)和质体数据的禾本科系统发育分析数据,涉及1153个样本(对应1133个接受种)。数据涵盖元数据、核基因分析结果、基因树-物种树 reconciliation结果、质体数据、参考序列及分析脚本等,支持禾本科系统发育关系的研究。
文件详解
- 元数据文件
- 文件名称:gpwgIII_samples_metadata_taxonomy.tsv
- 文件格式:TSV
- 字段映射介绍:包含1702个样本的详细信息,字段包括analysis_ID(核分析ID)、analysis_ID_plastome(质体分析ID)、acc_species(接受种名)、分类信息、数据类型、凭证标本ID、公共库登录号等
- 核基因原始序列
- 文件名称:raw_Ang353_sequences.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含所有样本的Ang353序列原始组装结果(预处理前)
- 核基因对齐文件
- 文件名称:alignments_dataset1_main_final.zip、alignments_dataset2_strict_trimming_final.zip、alignments_dataset3_no_shotgun_final.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:分别对应3个核基因数据集(不同修剪阈值或样本筛选)的对齐结果
- 核基因树文件
- 文件名称:gene_trees_dataset1_main_final.zip、gene_trees_dataset2_strict_trimming_final.zip、gene_trees_dataset3_no_shotgun_final.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:通过RAxML推断的3个核基因数据集的基因树(含100次 bootstrap)
- 多基因物种树文件
- 文件名称:astralpro_trees.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含3个核基因数据集通过Astral-Pro3得到的多基因物种树文件
- 基因树-物种树 reconciliation结果
- 文件名称:generax.zip、transfers_reconciliation_analyses.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:generax.zip含GeneRax reconciliation分析的输入与结果(分4个类群子文件夹);transfers_reconciliation_analyses.zip含转移事件推断结果的TSV文件
- 质体数据文件
- 文件名称:plastome_files.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:包含质体序列对齐文件、RAxML推断的质体树、核-质体样本匹配表等
- 参考序列数据集
- 文件名称:target_Ang353_sequences_grasses.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:本研究中用于Ang353序列组装的参考序列数据集
- 分析脚本文件
- 文件名称:shotgun_assembler_script.zip、quartet_metrics.R
- 文件格式:ZIP(压缩包)、R脚本
- 字段映射介绍:shotgun_assembler_script.zip含 shotgun 数据组装脚本及所需文件;quartet_metrics.R为计算 Quartet 指标的R脚本
数据来源
Grass Phylogeny Working Group III数据仓库
适用场景
- 禾本科系统发育关系研究: 利用核基因与质体数据的物种树,分析禾本科物种间的进化关系
- 基因树-物种树冲突分析: 通过GeneRax reconciliation结果,探究基因转移等进化事件
- 分子标记开发与应用: 基于Angiosperm353基因集的组装与分析流程,优化禾本科分子标记应用
- 系统发育分析方法验证: 对比不同修剪阈值、样本筛选策略下的系统发育分析结果,评估方法稳定性
- 禾本科类群特异性研究: 针对Andropogoneae、Bambusoideae等类群的reconciliation结果,开展类群进化机制研究