数据集概述
该数据集包含美国怀俄明州398只叉角羚的基因组学研究数据,涵盖4949个全基因组单核苷酸多态性(SNP)和11个微卫星基因座的基因型信息,以及样本基础信息、生物信息学分析流程文件等,用于评估叉角羚核心分布区的遗传结构与基因流状况。
文件详解
该数据集包含17个文件,按类型分组说明如下:
- 文档与协议文件
- readme.txt:项目文件说明文档,解释数据集各文件内容与用途
- rfseqProtocol.pdf:简化基因组测序实验方案文档
- BioinformaticsWorkflow.txt:生物信息学分析流程说明
- 样本与基因型数据文件
- SampleInfo.csv:样本信息表,包含样本ID、类型、采集年份、性别、狩猎区、SNP/微卫星分析保留状态
- MicrosatelliteGenotypes.csv:微卫星基因座基因型数据文件
- SNPGenotypes.vcf:SNP基因型数据文件(VCF格式)
- SNPGenotypeLikelihoods.txt:SNP基因型似然值数据
- 生物信息学代码与脚本文件
- vcf2mpgl.pl、splitFastq.pl、bwa.pl、gl2genest.pl、dDocent_prep.sh:Perl与Shell脚本,用于基因组数据处理
- ExcessHeterozygosity.R、PCA_ColorGradient.R、RareVariantAnalysis_I80.R:R语言脚本,用于遗传多样性分析、主成分分析、罕见变异分析
- 参考与辅助文件
- ConsensusGenome.fa:参考基因组序列文件
- ConsensusGenome.fa.fai:参考基因组索引文件
数据来源
Dryad
适用场景
- 种群遗传学研究:分析叉角羚核心分布区的遗传结构与基因流模式
- 保护生物学应用:评估景观屏障(如公路)对叉角羚基因连通性的影响
- 基因组学方法验证:测试全基因组SNP与微卫星标记在种群研究中的适用性
- 生物信息学流程参考:作为简化基因组测序数据分析的流程模板