数据集概述
本数据集基于Phenoscape知识库,采用本体论和机器推理方法,整合肉鳍鱼类类群的进化表型数据,生成包含639个可变性状、1051个分类单元的合成存在/缺失性状矩阵,涉及超14.5万个数据单元。数据通过推理补充缺失值,减少数据缺失率,并支持冲突检测与可视化分析,适用于表型-基因组关系研究。
文件详解
- README.txt
- 文件格式:TXT
- 字段映射介绍:数据集说明文档,包含数据来源、生成方法及相关代码仓库链接
- sarcop-presence-absence-variable.xml.zip
- 文件格式:ZIP(包含XML文件)
- 字段映射介绍:可变性状的存在/缺失表型数据XML压缩文件
- sarcop-presence-absence-variable.nex
- 文件格式:NEX
- 字段映射介绍:可变性状的存在/缺失表型数据NEXUS格式文件
- supplementary_table_1.txt至supplementary_table_6.txt(共6个文件)
- 文件格式:TXT
- 字段映射介绍:补充表格文件,包含原始研究文献、研究类群、分类单元数量、性状数量、状态数量、表型数量及对应XML文件名等信息
- sarcop-presence-absence-all.xml.zip
- 文件格式:ZIP(包含XML文件)
- 字段映射介绍:所有性状的存在/缺失表型数据XML压缩文件
- uberon_presences.owl
- 文件格式:OWL
- 字段映射介绍:基于Uberon本体的存在性状数据本体文件
数据来源
Phenoscape Knowledgebase(kb.phenoscape.org)及相关研究文献
适用场景
- 进化表型数据分析: 整合多研究表型数据,分析肉鳍鱼类类群的性状进化规律
- 生物本体论应用研究: 验证本体论与机器推理在表型数据整合中的有效性
- 缺失数据补充与冲突检测: 利用推理方法减少表型数据缺失率,识别数据冲突
- 表型-基因组关系研究: 链接表型数据与模式生物遗传数据,探究表型与基因组的关联
- 进化性状可视化分析: 识别鳍到肢过渡等关键进化事件中的性状采样不足区域