数据集概述
本数据集基于Illumina下一代测序技术(NGST),针对无参考基因组的从头物种,对哺乳动物最大的多基因家族——嗅觉受体(Olfactory Receptor)基因家族进行扩增与测序。结合传统实验室方法与新型组装技术,实现数据注释与过滤,可应用于任意基因家族或物种。数据集包含38个文件,涵盖测序数据、质控脚本、引物文件及说明文档等。
文件详解
- 说明文档类(.txt)
- 文件名称:包括README_for_Nyctimene_contigs.tar.txt、README_for_remove_primers.txt等19个README文件
- 文件格式:TXT
- 字段映射介绍:提供各测序数据文件、脚本及引物文件的使用说明,如Contig文件与原始reads的存储位置、质控脚本运行要求等
- 压缩数据类(.gz、.zip)
- 文件名称:包括myotis_reads.tar.gz、rhinolophus_reads.tar.gz、ailuropoda_reads.txt.zip等14个压缩文件
- 文件格式:GZ、ZIP
- 字段映射介绍:存储不同物种(如Myotis、Rhinolophus、Ailuropoda等)的测序reads与contigs数据
- 脚本文件类(.pl)
- 文件名称:filter_on_Q.pl、remove_primers.pl
- 文件格式:PL
- 字段映射介绍:实现测序数据的质量控制功能,filter_on_Q.pl用于质量过滤,remove_primers.pl用于引物去除
- 基因组数据类(.fa)
- 文件名称:Myotis_lucifugus_genomicORs.fa、Ailuropoda_melanoleuca_genomicORs.fa
- 文件格式:FA
- 字段映射介绍:存储特定物种(如Myotis lucifugus、Ailuropoda melanoleuca)的基因组嗅觉受体基因序列
- 引物文件类(.primer)
- 文件名称:8pr.primer
- 文件格式:PRIMER
- 字段映射介绍:包含研究中使用的引物序列,是运行remove_primers.pl脚本的必要文件
数据来源
论文“Using Illumina Next Generation Sequencing Technologies to sequence multigene families in de novo species”
适用场景
- 多基因家族测序分析: 用于研究不同物种(尤其是无参考基因组物种)的多基因家族(如嗅觉受体基因家族)结构与功能
- 基因组组装方法优化: 基于新型组装技术,探索短读长测序数据在基因家族组装中的应用局限与改进方向
- 分子生物学实验流程改进: 对比传统PCR克隆与Sanger测序,分析NGST结合新型方法在提高测序效率、缩短实验周期中的优势
- 跨物种基因家族比较: 利用不同物种的测序数据,开展基因家族组成、进化关系的比较研究
- 生物信息学工具开发: 基于数据集提供的质控脚本与组装方法,开发适用于多基因家族数据分析的下游工具