数据集概述
本数据集是neXtProt癌症变体门户的核心数据,包含人类癌症相关蛋白质中遗传变体及人工突变体的功能影响注释信息。注释以三元组形式呈现,涵盖变体对象、功能影响关系及受测属性,可用于分析癌症相关蛋白质变体的生物学功能与表型关联。
文件详解
- 文档类文件
- 文件名称:LICENSE.txt、Caloha_readme.txt.txt、README.txt
- 文件格式:TXT
- 内容说明:包含CC BY 4.0许可协议条款、数据集使用说明及SIB机构版权声明
- 数据类文件
- 文件名称:cancer_variants_portal.json、cancer_variants_portal.csv.csv
- 文件格式:JSON、CSV
- 字段映射:包含Accession number(登录号)、Position(位置)、Protein variant(蛋白质变体)、Mutation type(突变类型)、Mutation origin(突变来源)、Phenotype intensity(表型强度)、Relation(关系)、Object(对象)、Data confidence(数据置信度)等核心注释字段
- 本体类文件
- 文件名称:caloha.obo、cv_protein_property.obo、cv_modification_effect.obo
- 文件格式:OBO
- 内容说明:定义癌症相关蛋白质变体注释的本体术语体系,包括蛋白质属性、修饰效应等标准化词汇
数据来源
SIB - Swiss Institute of Bioinformatics(瑞士生物信息学研究所)CALIPHO研究组
适用场景
- 癌症蛋白质组学研究:分析遗传变体对癌症相关蛋白质功能的影响机制
- 肿瘤分子标志物筛选:挖掘与癌症表型关联的高置信度蛋白质变体
- 生物医学注释标准化:基于OBO本体文件构建统一的癌症变体注释规范
- 精准医疗靶点发现:通过突变类型与表型强度的关联识别潜在治疗靶点
- 生物信息学数据库整合:为癌症研究平台提供标准化的蛋白质变体注释数据支持