PhageHostLearn_Based_克雷伯氏菌噬菌体宿主特异性预测训练测试数据

数据集概述

本数据集包含复现论文“Prediction of Klebsiella phage-host specificity at the strain level”分析所需的全部训练和测试数据,涵盖原始基因组序列、处理后的噬菌体RBPs、克雷伯氏菌K-loci序列及噬菌体-宿主相互作用数据,共10个文件。

文件详解

  • CSV文件(5个)
  • RBPbase.csv:包含phage_ID(噬菌体ID)、protein_ID(蛋白ID)、protein_sequence(蛋白序列)、dna_sequence(DNA序列)、xgb_score(XGB评分)字段
  • esm2_embeddings_rbp.csv:包含噬菌体RBP的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
  • esm2_embeddings_loci_invitro.csv:包含体外实验K-loci的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
  • esm2_embeddings_loci.csv:包含K-loci的ESM2嵌入数据,字段含accession及多个数值型嵌入维度
  • phage_host_interactions.csv:包含噬菌体-宿主相互作用数据
  • ZIP文件(2个)
  • phages_genomes.zip:噬菌体基因组序列压缩包
  • klebsiella_genomes.zip:克雷伯氏菌基因组序列压缩包
  • JSON文件(2个)
  • Locibase_invitro.json:体外实验K-loci数据
  • Locibase.json:K-loci数据
  • TXT文件(1个)
  • all_loci_score_matrix.txt:包含K-loci之间的评分矩阵数据,内容为数值型矩阵

数据来源

Zenodo repository

适用场景

  • 噬菌体宿主特异性预测模型训练: 用于训练和测试克雷伯氏菌噬菌体宿主特异性预测模型
  • 噬菌体RBP与宿主K-loci互作分析: 基于序列数据研究噬菌体受体结合蛋白(RBP)与宿主K-loci的相互作用机制
  • 生物信息学模型复现: 支持复现论文中噬菌体宿主特异性预测的相关分析
  • 基因组序列特征提取: 利用基因组序列和蛋白序列数据提取生物特征,用于后续生物信息学分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 340.41 MiB
最后更新 2026年1月14日
创建于 2026年1月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。