数据集概述
本数据集为测试用基因组数据,包含来自1000 Genomes Project的人类个体HG00096和HG00097的19号染色体两个单倍型参考序列文件,以及从SRR17981962测序数据中采样得到的10万条双端测序读数文件,所有数据打包为一个压缩文件。
文件详解
- 压缩包文件
- 文件名称:test_data.zip
- 文件格式:ZIP
- 包含文件:
- 参考序列文件:HG00096.1.19.fasta(HG00096个体19号染色体单倍型序列)、HG00097.1.19.fasta(HG00097个体19号染色体单倍型序列)
- 双端测序读数文件:SRR17981962_1_sampled.fastq(SRR17981962测序数据的第一端采样读数)、SRR17981962_2_sampled.fastq(SRR17981962测序数据的第二端采样读数)
数据来源
1000 Genomes Project
适用场景
- 基因组测序数据分析测试: 用于验证基因组比对、变异检测等生物信息学工具的性能和流程。
- 人类遗传学教学演示: 作为教学案例,展示参考基因组与测序读数的对应关系及数据分析方法。
- 测序数据处理算法开发: 为开发双端测序数据的质量控制、比对优化算法提供测试数据集。
- 1000 Genomes Project数据应用研究: 辅助研究人类19号染色体单倍型的遗传多样性特征。