NCBI_GenBank_Based_红藻源复杂质体进化模型与定年研究数据

数据集概述

本数据集为红藻源复杂质体进化模型与定年研究的支撑数据,包含经处理的蛋白质序列比对文件、原始序列文件及物种-蛋白质对应矩阵。数据选取自NCBI RefSeq和GenBank数据库,涵盖112种生物的97个保守质体编码蛋白氨基酸序列,用于系统发育和分子钟分析。

文件详解

  • 序列比对文件包(SequenceAlignments.zip)
  • 文件格式:ZIP(内含FASTA格式比对文件)
  • 内容说明:采用MAFFT v7.429的L-INS-i算法生成的单同源蛋白组独立比对结果,经AliView评估及trimAl、ClipKIT筛选系统发育信息位点
  • 合并比对文件包(ConcatenatedAlignments.zip)
  • 文件格式:ZIP(内含FASTA格式合并文件)
  • 内容说明:通过SequenceMatrix 1.8将修剪后/未修剪的单蛋白比对结果合并为超级矩阵,用于系统发育和分子钟分析
  • 原始序列文件包(RawSequences.zip)
  • 文件格式:ZIP(内含FASTA格式原始序列)
  • 内容说明:未比对的原始蛋白质序列
  • 物种-蛋白质矩阵文件(Protein_Species_Matrix.csv)
  • 文件格式:CSV
  • 字段映射介绍:包含V1(物种/样本标识)及atpA、atpB等97个质体编码蛋白的字段,记录各物种的蛋白序列存在情况

数据来源

NCBI参考序列数据库(https://www.ncbi.nlm.nih.gov/refseq/)、GenBank(https://www.ncbi.nlm.nih.gov/genbank/

适用场景

  • 红藻源质体进化研究: 利用合并比对矩阵分析红藻源复杂质体的系统发育关系与进化时间线
  • 质体编码蛋白保守性分析: 通过原始序列与比对结果探究97个保守质体蛋白的序列特征
  • 分子钟模型验证: 基于超级矩阵数据测试不同分子钟模型的拟合效果
  • 物种-蛋白分布分析: 利用CSV矩阵研究红藻源质体生物的蛋白编码基因分布规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 9.68 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。