数据集概述
本数据集为myExperiment平台中生物信息学相关工作流的抽象化版本,通过移除所有非分析节点(包括数据结构/类型转换的“shims”节点)得到,用于SCOFF分析(检测高度相似的工作流片段)。数据集包含739个文件,无目录层级,文件类型以.t2flow和.xml为主。
文件详解
- 文件命名:遵循
wf_myExperiment_[编号]_abstractWorkflow.[格式]模式(如wf_myExperiment_661_abstractWorkflow.t2flow、wf_myExperiment_510_abstractWorkflow.xml)
- 文件格式:.t2flow(467个,占比约63.19%)、.xml(272个,占比约36.81%)
- 内容说明:
- .t2flow文件:抽象化后的工作流文件,保留分析节点
- .xml文件:包含工作流元数据的文件,共5个XML元数据文件
适用场景
- SCOFF分析研究:用于检测生物信息学工作流中高度相似的片段
- 工作流结构分析:研究生物信息学工作流的核心分析逻辑与模式
- 生物信息学工作流复用性评估:分析抽象化工作流的可复用组件
- 工作流语义相似性研究:基于保留的分析节点探索工作流的语义关联