数据集概述
本数据集围绕三刺鱼基因组组装优化及适应性性状定位展开,包含通过GBS方法构建的连锁图谱数据,用于锚定、调整基因组 scaffolds,提升组装完整性;同时包含侧线板数量、鳃耙长度等进化性状的QTL定位结果,揭示适应性性状的遗传基础。
文件详解
- 文档类文件
- 文件名称:README.txt
- 文件格式:TXT
- 内容介绍:数据集说明文档,概述各文件功能,如NewScaffoldOrder.csv的scaffold排序规则、坐标转换逻辑等
- 代码类文件
- 文件名称:convertCoordinate.R
- 文件格式:R
- 内容介绍:坐标转换脚本,用于实现基因组组装中旧坐标与新坐标的映射转换
- 数据类文件
- 文件名称:FileS4 NewScaffoldOrder.csv
- 文件格式:CSV
- 字段映射:包含Scaffold( scaffold编号)、Length(长度)、NewChr(新染色体)、NewStart/End(新坐标起止)、NewOrientation(新方向)、OldChr/Start/End(旧坐标信息)等字段,记录scaffold的染色体锚定与位置调整结果
- 文件名称:ScafKeyForNewFasta.csv
- 文件格式:CSV
- 字段映射:包含ScaffoldNickname( scaffold别名)、Scaffold(编号)、newChr(新染色体)、newStart/End(新坐标)、newOrientation(新方向)等字段,为基因组序列文件提供scaffold映射关系
- 文件名称:SampleList.csv
- 文件格式:CSV
- 内容介绍:样本信息列表,记录实验所用三刺鱼样本的基础信息
- 基因组序列类文件
- 文件名称:FileS5 revisedAssemblyUnmasked.fa.zip
- 文件格式:ZIP(包含FASTA文件)
- 内容介绍:优化后的未屏蔽基因组组装序列文件
- 文件名称:FileS6 revisedAssemblyMasked.fa.zip
- 文件格式:ZIP(包含FASTA文件)
- 内容介绍:优化后的屏蔽基因组组装序列文件(屏蔽重复序列等区域)
- 文件名称:FileS7 ensGene_revised.gtf.zip
- 文件格式:ZIP(包含GTF文件)
- 内容介绍:基于优化基因组的基因注释文件,记录基因的位置、结构等信息
数据来源
Glazer et al 2015 G3研究数据
适用场景
- 基因组组装优化研究:利用scaffold锚定、坐标调整数据,提升三刺鱼基因组组装的染色体水平完整性
- 适应性进化遗传机制分析:通过侧线板、鳃耙长度等性状的QTL定位结果,探究三刺鱼淡水适应的遗传基础
- 比较基因组学研究:基于优化的基因组序列与注释文件,开展三刺鱼与其他物种的基因组比较分析
- 进化性状遗传定位方法验证:验证GBS连锁图谱在复杂性状QTL定位中的应用效果