数据集概述
本数据集包含复现论文“Prediction of Klebsiella phage-host specificity at the strain level”分析所需的全部训练和测试数据,涵盖原始基因组序列、处理后的噬菌体RBPs、克雷伯氏菌K-loci序列及噬菌体-宿主相互作用数据,共10个文件。
文件详解
- CSV文件(5个)
- RBPbase.csv:包含phage_ID(噬菌体ID)、protein_ID(蛋白ID)、protein_sequence(蛋白序列)、dna_sequence(DNA序列)、xgb_score(XGB评分)字段
- esm2_embeddings_rbp.csv:包含噬菌体RBP的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
- esm2_embeddings_loci_invitro.csv:包含体外实验K-loci的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
- esm2_embeddings_loci.csv:包含K-loci的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
- phage_host_interactions.csv:包含噬菌体-宿主相互作用数据
- ZIP文件(2个)
- phages_genomes.zip:噬菌体基因组序列压缩包
- klebsiella_genomes.zip:克雷伯氏菌基因组序列压缩包
- JSON文件(2个)
- Locibase_invitro.json:体外实验K-loci数据
- Locibase.json:K-loci数据
- TXT文件(1个)
- all_loci_score_matrix.txt:包含K-loci之间的评分矩阵数据,内容为数值型矩阵
数据来源
Zenodo repository
适用场景
- 噬菌体宿主特异性预测模型训练: 用于训练和测试克雷伯氏菌噬菌体宿主特异性预测模型
- 噬菌体RBP与宿主K-loci互作分析: 基于序列数据研究噬菌体受体结合蛋白(RBP)与宿主K-loci的相互作用机制
- 生物信息学模型复现: 支持复现论文中噬菌体宿主特异性预测的相关分析
- 基因组序列特征提取: 利用基因组序列和蛋白序列数据提取生物特征,用于后续生物信息学分析