数据集概述
本数据集是Python包oggmap/orthomap的示例数据,包含基于不同数据库版本(Ensembl、WormBase等)的OrthoFinder分析结果、物种列表、分类树及预计算的直系同源映射等文件,为基因直系同源分析提供示例数据支持。
文件详解
该数据集包含多种类型的文件,具体说明如下:
- OrthoFinder结果文件(压缩包格式):
- 如ensembl_105_orthofinder_Orthogroups.GeneCount.tsv.zip、ensembl_110_orthofinder_last_Orthogroups.tsv.zip等,包含不同数据库版本和参数下的直系同源组统计及详细信息。
- 物种列表文件(TSV格式):
- 如ensembl_105_orthofinder_species_list.tsv、WS288_WBPS18_orthofinder_last_species_list.tsv等,记录OrthoFinder物种文件名与对应NCBI分类ID的映射关系。
- 分类树文件:
- 如ensembl_105_species_tree_ncbi_topology_named.nw(Newick格式)、ensembl_105_species_tree_ncbi_topology_named.pdf(PDF格式),提供物种的NCBI分类拓扑树。
- 预计算直系同源映射文件(TSV或压缩包格式):
- 如Sun2021_Orthomap.tsv、ensembl_113_orthofinder_last_orthomaps.tsv.zip等,包含不同物种或数据库的预计算直系同源映射数据。
- 其他示例文件:
- 如broccoli_example_table_OGs_protein_names.txt(TXT格式)、PhyloExpressionSetExample.h5ad(H5AD格式)、mouse_synonyms.tsv(TSV格式)等,提供基因名称、表达谱示例及基因同义词映射数据。
适用场景
- 生物信息学工具测试:用于验证和测试oggmap/orthomap等Python包的功能与性能。
- 基因直系同源分析:作为示例数据,辅助研究人员理解OrthoFinder等工具的输出结果及分析流程。
- 进化生物学研究:支持物种分类树构建、基因家族进化分析等研究方向。
- 数据库整合分析:为不同数据库(Ensembl、WormBase等)的基因数据整合提供参考示例。