数据集概述
本数据集来自真核生物系统发育基因组分析研究,包含232种真核生物、486种细菌和84种古菌的基因组数据,涉及1554个垂直遗传基因。数据支持五大真核生物分支(变形虫界、 excavata、后鞭毛生物、原始色素体生物、SAR超类群)的关系解析,分析了内共生基因转移(EGT)对系统发育的影响,并验证了位点抽样在系统发育分析中的优势。
文件详解
- 文档类文件
- 文件名称:Katz_Grant_README.docx、Supplemental_Data.docx
- 文件格式:DOCX
- 字段映射介绍:包含数据集说明、补充研究内容等文本信息
- 表格类文件
- 文件名称:Table_S1.xlsx、Table_S2.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含研究相关的补充表格数据(具体字段未提供)
- 系统发育文件
- 文件名称:Euk_150.phy、Euk_1554_noEGT.phy、Euk_1554.phy、All_150_noEGT.phy、All_1554.phy
- 文件格式:PHY
- 字段映射介绍:包含不同基因组合(如150基因、1554基因、去除EGT基因)的系统发育比对数据,涵盖真核生物单独分析及包含细菌、古菌的联合分析
- 压缩文件
- 文件名称:1554_Single_gene_alignments_Euk_only.zip、1554_Single_gene_alignments_All.zip
- 文件格式:ZIP
- 字段映射介绍:分别包含1554个单基因在真核生物中的比对数据压缩包,以及包含所有生物(真核、细菌、古菌)的单基因比对数据压缩包
数据来源
论文“Taxon-rich phylogenomic analyses resolve the eukaryotic tree of life and reveal the power of subsampling by sites”
适用场景
- 真核生物系统发育研究: 用于解析五大真核生物分支的进化关系及孤儿谱系的定位
- 内共生基因转移分析: 研究真核生物中来自蓝细菌的EGT基因对系统发育结果的影响
- 系统发育数据子采样方法验证: 比较位点抽样与基因抽样在系统发育分析中的支持度差异
- 生物信息学方法优化: 探索去除EGT基因对系统发育估计的校正作用,提升进化树构建准确性
- 微生物多样性研究: 分析未采样或分子数据缺失的真核生物谱系,揭示潜在的生物多样性