数据集概述
本数据集是基于CWLProv 0.5.0标准的研究对象,记录了体细胞变异检测工作流的Common Workflow Language(CWL)执行溯源信息。工作流由Blue Collar Bioinformatics设计,旨在实现高通量数据分析的自动化与可重复性,包含对齐、变异检测等步骤的溯源文件。
文件详解
- 核心溯源文件:包含多种格式的工作流执行溯源记录,如workflow_20alignment_2.6caa1136-4536-4b12-9e5f-c602b3b9889a.cwlprov.json(JSON格式,对齐步骤溯源)、workflow_20variantcall.4a4c56bd-0ad9-469c-9d0d-ef4214fc4a71.cwlprov.provn(PROVN格式,变异检测步骤溯源)等,覆盖JSON、JSONLD、XML、NT、TTL、PROVN等11种格式
- 元数据文件:somaticwf_0.5.0_mac/metadata/manifest.json(JSON格式,元数据清单)、somaticwf_0.5.0_mac/bag-info.txt(TXT格式,数据包信息)
- 标签清单文件:somaticwf_0.5.0_mac/tagmanifest-sha512.txt(TXT格式,文件哈希校验清单)
- 数据文件:somaticwf_0.5.0_mac/somaticwf_0.5.0_mac/data/目录下的结构化数据文件,包含01至10等子目录的实验数据
适用场景
- 生物信息学工作流研究:分析体细胞变异检测工作流的执行逻辑与步骤依赖
- 计算溯源技术验证:验证CWLProv标准在生物信息学工作流溯源中的应用效果
- 高通量数据分析复现:基于溯源数据复现体细胞变异检测的自动化分析过程
- 生物信息学工具评估:评估容器化工具在变异检测工作流中的性能与兼容性