CREMSA_Based多序列比对压缩索引论文支持数据

数据集概述

本数据集为论文“CREMSA: Compressed Indexing of (Ultra) Large Multiple Sequence Alignments”的支持数据,包含4个文件,涵盖人工生成的FASTA文件、HIV1基因组多序列比对、HIV基因组系统发育JSONL文件及主要协助转运蛋白超家族(MFS)蛋白序列多序列比对,用于论文研究的可复现性验证。

文件详解

  • random_datasets_len10000_num30000.zip
  • 文件格式:ZIP
  • 字段映射介绍:人工生成的FASTA文件压缩包,具体内容参考论文描述
  • HIV1_ALL_2022_genome_DNA.fasta.xz
  • 文件格式:XZ压缩的FASTA
  • 字段映射介绍:5,381条HIV1基因组的多序列比对文件
  • nextstrain_groups_LANL-HIV-DB_HIV_genome_timetree.jsonl.gz
  • 文件格式:GZ压缩的JSONL
  • 字段映射介绍:Nextstrain生成的HIV基因组系统发育文件,包含5,381条中的3,090条HIV基因组的系统发育信息
  • MFS_1.fasta.xz
  • 文件格式:XZ压缩的FASTA
  • 字段映射介绍:214,283条主要协助转运蛋白超家族(MFS)蛋白序列的多序列比对文件

数据来源

论文“CREMSA: Compressed Indexing of (Ultra) Large Multiple Sequence Alignments”

适用场景

  • 生物信息学多序列比对压缩索引研究: 验证CREMSA方法在超大型多序列比对数据上的压缩索引性能
  • HIV基因组数据分析: 基于HIV1基因组多序列比对及系统发育数据,开展HIV进化与传播研究
  • 蛋白质序列分析: 利用MFS蛋白序列多序列比对数据,研究主要协助转运蛋白超家族的结构与功能
  • 人工序列数据集应用: 使用人工生成的FASTA文件,进行多序列比对压缩索引算法的训练与测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 996.26 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。