数据集概述
本数据集包含118个脊椎动物基因家族的系统发育树,用于James Cotton和Roderic Page在2002年发表的两篇论文。数据涵盖基因序列文件、系统发育树文件、分类重叠图及基因家族列表,支持基因进化关系与分类学分析。
文件详解
- 压缩包文件
- 文件名称:genes.zip
- 文件格式:ZIP
- 字段映射介绍:包含每个基因家族的FASTA序列文件、NEXUS序列文件和Newick格式系统发育树文件
- 文档文件
- 文件名称:suppl.pdf
- 文件格式:PDF
- 字段映射介绍:列出118个基因家族的名称,含HOVERGEN家族编码与对应基因家族名称(如FAM000030A对应wnt 5)
- 系统发育树整合文件
- 文件名称:final_dataset.gtr
- 文件格式:NEXUS
- 字段映射介绍:整合所有118个基因家族系统发育树的NEXUS文件,含GeneTree识别的自定义模块
- 分类重叠图文件
- 文件名称:final_dataset.gml
- 文件格式:GML
- 字段映射介绍:存储基因树中分类单元重叠关系的图数据
- 补充文档文件
- 文件名称:final_dataset_connections.pdf
- 文件格式:PDF
- 字段映射介绍:未明确说明具体内容,推测为数据集相关补充说明文档
数据来源
James Cotton和Roderic Page在2002年发表的两篇论文
适用场景
- 基因家族进化分析: 利用系统发育树研究脊椎动物基因家族的演化关系、分化时间与物种特异性
- 比较基因组学研究: 通过多基因家族系统发育树对比,分析物种间的基因组差异与保守性
- 分类学验证: 基于基因树的分类单元重叠图,验证或补充现有生物分类体系
- 生物信息学方法开发: 作为基准数据集,测试基因序列比对、系统发育树构建等算法的准确性
- 分子进化机制研究: 结合基因序列与系统发育树,探究基因复制、功能分化等进化机制