数据集概述
本数据集围绕非模式生物SNP基因分型错误率展开,通过双酶切RAD测序技术,以霍夫曼二趾树懒母子对为研究对象,分析覆盖度与序列质量对参考比对及从头组装数据集基因分型错误率的影响,同时评估错误率对亲子关系鉴定的作用,为测序方案设计提供参考。
文件详解
- README_for_SNP_datasets.txt
- 文件格式:TXT
- 字段映射介绍:包含参考比对、参考比对rxstacks、从头组装、从头组装rxstacks四种数据集的SNP信息,文件表头源自Stacks 1.20输出结构,涵盖Locus(位点)、Position(位置)等字段
- SNP_datasets.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含上述四种SNP分析数据集
- SAS Source Code for estimating genotyping error rates.txt
- 文件格式:TXT
- 字段映射介绍:提供基于孟德尔不相容性估算基因分型错误率的SAS脚本,需将缺失基因型数据的0值进行处理
数据来源
论文“Finding the right coverage: The impact of coverage and sequence quality on SNP genotyping error rates”
适用场景
- 基因分型错误率分析: 研究覆盖度、序列质量对参考比对及从头组装SNP数据集错误率的影响
- 测序方案优化: 为非模式生物双酶切RAD测序的覆盖度选择、样本量与错误率权衡提供数据支持
- 亲子关系鉴定评估: 分析基因分型覆盖度对亲子关系鉴定准确性的作用
- 生物信息学方法验证: 验证基于孟德尔不相容性估算错误率的SAS脚本适用性