数据集概述
本数据集是manabuishii/yevis-getting-started项目中的一个工作流,包含14个文件,涉及基因序列数据格式转换相关的工作流定义、输入配置、示例数据及说明文档,支持CRAM与BAM、FASTQ与BAM等格式转换任务,适用于生物信息学序列数据处理场景。
文件详解
- 工作流定义文件(.wdl)
- 文件名称:cram-to-bam.wdl、bam-to-unmapped-bams.wdl、interleaved-fastq-to-paired-fastq.wdl、paired-fastq-to-unmapped-bam.wdl
- 文件格式:.wdl
- 字段映射介绍:定义基因序列格式转换的工作流逻辑,如cram-to-bam.wdl实现CRAM转BAM的步骤,bam-to-unmapped-bams.wdl实现BAM拆分为未比对BAM的流程
- 输入配置文件(.json)
- 文件名称:bam-to-unmapped-bams.inputs.json、interleaved-fastq-to-paired-fastq.inputs.json、paired-fastq-to-unmapped-bam.inputs.json、cram-to-bam.inputs.json、generic.google-papi.options.json
- 文件格式:.json
- 字段映射介绍:存储工作流输入参数,如bam-to-unmapped-bams.inputs.json含键值对['BamToUnmappedBams.input_bam'],paired-fastq-to-unmapped-bam.inputs.json含样本名、FASTQ路径等10个键
- 元数据与配置文件
- 文件名称:yevis-metadata-1.0.0.yml、generic.google-papi.options.json
- 文件格式:.yml、.json
- 字段映射介绍:yevis-metadata-1.0.0.yml为元数据配置,generic.google-papi.options.json为Google PAPI相关配置
- 示例数据文件
- 文件名称:NA12778.final.small.bam
- 文件格式:.bam
- 字段映射介绍:基因序列示例BAM文件,用于验证格式转换工作流
- 说明与许可文件
- 文件名称:README.md、LICENSE
- 文件格式:.md、无扩展名
- 字段映射介绍:README.md说明工作流功能,如cram-to-bam脚本解决Samtools版本问题的方案;LICENSE为许可文件
数据来源
manabuishii/yevis-getting-started项目
适用场景
- 生物信息学序列数据处理:用于CRAM、BAM、FASTQ等基因序列格式的转换任务,支持科研中的数据格式适配需求
- 工作流验证与测试:通过示例BAM文件(NA12778.final.small.bam)验证格式转换工作流的正确性
- 生物信息学工具开发:参考.wdl文件的工作流逻辑,构建或优化基因序列格式转换工具
- 教学与培训:作为生物信息学领域序列数据格式转换的实践案例,用于相关技术教学