数据集概述
本数据集为PhyloGenes平台1.2版本发布的基因家族数据压缩包,包含基因家族的系统发育树文件和基因成员信息文件,覆盖基因ID、分类学名称、序列登录号、功能注释等核心内容,支持生物信息学领域的基因家族分析与功能研究。
文件详解
- PhyloXML_files文件夹
- 文件名称:以.xml命名(每个家族对应一个文件)
- 文件格式:PhyloXML
- 字段映射介绍:
- 叶节点:包含分支长度、基因ID(name)、分类学科学名称(taxonomy scientific_name)、UniProt登录号(sequence accession)
- 非叶节点:包含分支长度、进化事件类型(events,如duplication或speciation)
- phylogenes_csv.tar.xz压缩包
- 文件名称:以.csv命名(每个家族对应一个文件)
- 文件格式:CSV
- 字段映射介绍:包含Uniprot ID、Gene(基因名,无则为Gene ID)、Gene ID、Gene name、Organism(生物)、Subfamily name(亚家族名)列;后续列为已知功能(GO分子功能术语,1/0表示是否存在,基于实验证据注释)
数据来源
PhyloGenes平台(release version 1.2,phylogenes.org)
适用场景
- 基因家族系统发育分析:利用PhyloXML文件构建的系统发育树,研究基因家族的进化关系与分化模式
- 基因功能注释研究:通过CSV文件的GO功能术语,分析基因家族成员的功能分布与保守性
- 跨物种基因比较:结合分类学名称与生物信息,开展不同物种间同源基因的比较研究
- 生物信息学数据库补充:为基因组学、进化生物学相关数据库提供标准化的基因家族数据支撑