数据集概述
本数据集为2022年9月在Agribio举办的实蝇宏条形码工作坊提供的原始数据,包含22个文件,涵盖测序原始数据、样本表及元数据文件,用于支持实蝇宏条形码实验的数据分析实践。
文件详解
- 原始测序数据文件
- 文件名称:K77JP_Undetermined_S0_R1_001.fastq.gz、K77JP_Trap19_S22_R1_001.fastq.gz等12个.gz格式文件
- 文件格式:fastq.gz
- 字段映射介绍:包含实蝇样本(如Trap1、Trap6等)及未确定样本的双端测序原始数据
- 元数据与参数文件
- 文件名称:RunInfo.xml、RunParameters.xml
- 文件格式:XML
- 字段映射介绍:记录测序实验的运行信息、参数配置等元数据
- 样本表文件
- 文件名称:SampleSheet_K77JP.csv
- 文件格式:CSV
- 字段映射介绍:包含实验头信息(如IEM文件版本、研究者姓名、项目名称、实验名称等)及样本信息
- 指标文件
- 文件名称:IndexMetricsOut.bin、ControlMetricsOut.bin等7个.bin格式文件
- 文件格式:bin
- 字段映射介绍:包含测序实验的索引、质控、错误等指标数据
数据来源
Agribio 2022年9月实蝇宏条形码工作坊
适用场景
- 宏条形码实验数据分析教学:用于实蝇宏条形码工作坊的实操训练,学习测序数据处理流程
- 实蝇物种鉴定研究:基于测序原始数据进行实蝇物种的宏条形码鉴定分析
- 测序数据质控实践:利用指标文件开展测序数据质量控制方法的验证与应用
- 生物信息学流程优化:针对实蝇宏条形码数据优化数据分析流程参数