数据集

CREMSA_Based多序列比对压缩索引论文支持数据

数据集概述

本数据集为论文“CREMSA: Compressed Indexing of (Ultra) Large Multiple Sequence Alignments”的支持数据，包含4个文件，涵盖人工生成的FASTA文件、HIV1基因组多序列比对、HIV基因组系统发育JSONL文件及主要协助转运蛋白超家族（MFS）蛋白序列多序列比对，用于论文研究的可复现性验证。

文件详解

random_datasets_len10000_num30000.zip
文件格式：ZIP
字段映射介绍：人工生成的FASTA文件压缩包，具体内容参考论文描述
HIV1_ALL_2022_genome_DNA.fasta.xz
文件格式：XZ压缩的FASTA
字段映射介绍：5,381条HIV1基因组的多序列比对文件
nextstrain_groups_LANL-HIV-DB_HIV_genome_timetree.jsonl.gz
文件格式：GZ压缩的JSONL
字段映射介绍：Nextstrain生成的HIV基因组系统发育文件，包含5,381条中的3,090条HIV基因组的系统发育信息
MFS_1.fasta.xz
文件格式：XZ压缩的FASTA
字段映射介绍：214,283条主要协助转运蛋白超家族（MFS）蛋白序列的多序列比对文件

数据来源

论文“CREMSA: Compressed Indexing of (Ultra) Large Multiple Sequence Alignments”

适用场景

生物信息学多序列比对压缩索引研究: 验证CREMSA方法在超大型多序列比对数据上的压缩索引性能
HIV基因组数据分析: 基于HIV1基因组多序列比对及系统发育数据，开展HIV进化与传播研究
蛋白质序列分析: 利用MFS蛋白序列多序列比对数据，研究主要协助转运蛋白超家族的结构与功能
人工序列数据集应用: 使用人工生成的FASTA文件，进行多序列比对压缩索引算法的训练与测试

数据与资源

15100011.zipZIP
996.26 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	996.26 MiB
最后更新	2026年1月31日
创建于	2026年1月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。