数据集概述
本数据集为验证混合RNA-Seq是否能准确预测真实等位基因频率的研究数据,以10只银行田鼠肝脏转录组为研究对象,对比单样本测序与混合样本测序的等位基因频率差异,包含参考转录组、基因型数据、频率估计结果及分析脚本等9个文件。
文件详解
- 参考转录组文件
- 文件名称:C3W_final_transcriptome.fasta
- 文件格式:FASTA
- 字段映射介绍:田鼠肝脏转录组从头组装的参考序列,用于测序 reads 比对
- 基因型数据文件
- 文件名称:var.flt.ind.default.vcf
- 文件格式:VCF
- 字段映射介绍:单样本测序得到的高质量基因型数据,包含23,682个SNP的"真实"等位基因频率信息
- 混合样本频率估计文件
- 文件名称:var.flt.pool.flat.vcf
- 文件格式:VCF
- 字段映射介绍:混合样本测序得到的等位基因频率估计结果,用于与真实频率对比
- 统计分析结果文件
- 文件名称:hq_SNPs_and_estimation_error_calculations.txt
- 文件格式:TXT
- 字段映射介绍:高质量SNP位点及频率估计误差的计算结果,包含相对估计误差等关键指标
- 表达量统计文件
- 文件名称:transcript_ind_pooled_mean.xlsx
- 文件格式:XLSX
- 字段映射介绍:单样本与混合样本的转录本表达量均值统计数据
- 分析脚本文件
- 文件名称:python_scripts.zip
- 文件格式:ZIP
- 字段映射介绍:包含用于数据处理和分析的Python脚本压缩包
- 其他辅助文件
- 文件名称:Contigs_9het.txt、genotypes_default_Q30_dp5_q30.txt、ind.sync
- 文件格式:TXT、SYNC
- 字段映射介绍:包含杂合子Contig列表、过滤后的基因型数据、单样本比对同步数据等辅助分析文件
适用场景
- 群体遗传学研究:用于非模式生物群体等位基因频率的高效估计与验证
- 转录组测序技术评估:对比混合RNA-Seq与单样本测序在频率估计上的准确性差异
- 基因表达变异分析:研究个体间基因表达差异及等位基因特异性表达对频率估计的影响
- 测序成本优化:为非模式物种大规模群体遗传分析提供低成本混合测序方案的参考依据
- 生物信息学方法开发:验证混合RNA-Seq数据分析流程的可靠性,优化频率估计算法