数据集概述
本数据集为SeMRA蛋白质复合物映射数据库,聚焦蛋白质复合物命名资源的全景分析,不针对特定物种。包含28个文件,涵盖原始数据、处理后数据、统计摘要、可视化图表及使用说明等,支持蛋白质复合物命名资源的研究与应用。
文件详解
- 文档类文件
- 文件名称:README.md
- 文件格式:.md
- 字段映射介绍:包含数据库使用说明、复现指南及资源链接等内容
- 压缩数据文件(.gz格式,共12个)
- 文件名称:evidence_nodes.tsv.gz、processed.sssom.tsv.gz、priority.jsonl.gz、priority.sssom.tsv.gz、mapping_nodes.tsv.gz等
- 文件格式:.gz
- 字段映射介绍:压缩存储的原始或处理后数据,包含证据节点、映射节点、优先级数据等
- 表格数据文件(.tsv格式,共5个)
- 文件名称:summary.tsv、source_summary.tsv、processed_counts.tsv、raw_counts.tsv、priority_counts.tsv
- 文件格式:.tsv
- 字段映射介绍:包含资源摘要、来源统计、处理/原始/优先级计数等表格数据
- 可视化文件(.svg格式,共5个)
- 文件名称:priority_graph.svg、processed_landscape_histogram.svg、processed_landscape_upset.svg、raw_graph.svg等
- 文件格式:.svg
- 字段映射介绍:蛋白质复合物映射的优先级图、景观直方图、Upset图等可视化结果
- 脚本类文件
- 文件名称:run_on_docker.sh、startup.sh
- 文件格式:.sh
- 字段映射介绍:Docker运行脚本及启动脚本
- 配置与统计类文件
- 文件名称:configuration.json、stats.json
- 文件格式:.json
- 字段映射介绍:configuration.json包含数据库配置信息;stats.json包含数据分布、术语计数、处理时间等统计信息
- 其他文件
- 文件名称:Dockerfile
- 文件格式:无扩展名
- 字段映射介绍:Docker镜像构建文件
数据来源
Zenodo(DOI:10.5281/zenodo.11091421)
适用场景
- 蛋白质复合物命名资源分析: 研究不同蛋白质复合物命名资源的分布、覆盖度及关联关系
- 生物信息学数据整合: 整合多源蛋白质复合物数据,支持跨资源的复合物映射研究
- 蛋白质组学研究: 为蛋白质复合物的功能注释、相互作用分析提供数据支持
- 生物数据库构建: 作为蛋白质复合物映射数据库构建的参考案例,指导同类数据库开发
- 可视化分析应用: 利用.svg图表可视化蛋白质复合物命名资源的景观特征与优先级关系