PhageHostLearn_Based噬菌体宿主学习训练数据与聚类分析结果

数据集概述

本数据集包含训练PhageHostLearn系统的噬菌体受体结合蛋白(RBP)、克雷伯氏菌K-基因座序列数据,以及ESM-2嵌入特征和CD-HIT聚类分析结果,用于噬菌体宿主预测模型开发,共8个文件。

文件详解

  • 数据文件
  • Locibase.json:JSON格式,克雷伯氏菌K-基因座序列数据集
  • RBPbase.csv:CSV格式,包含噬菌体ID、蛋白ID、蛋白序列、DNA序列及XGB模型评分字段
  • phage_host_interactions.csv:CSV格式,噬菌体与宿主相互作用关系数据
  • esm2_embeddings_rbp.csv:CSV格式,噬菌体RBP的ESM-2嵌入特征数据
  • esm2_embeddings_loci.csv:CSV格式,克雷伯氏菌K-基因座的ESM-2嵌入特征数据
  • 特征与聚类文件
  • hdc_features.txt:TXT格式,包含噬菌体与K-基因座的高维计算特征数据(如("KP_HGUA02_066", "A1a")对应的二进制特征向量)
  • Locibase_clusters_50.txt:TXT格式,克雷伯氏菌K-基因座蛋白序列50%相似性聚类结果
  • RBPbase_clusters_50.txt:TXT格式,噬菌体RBP序列50%相似性聚类结果

适用场景

  • 噬菌体宿主预测模型开发:用于训练和优化基于序列特征的噬菌体-宿主匹配预测模型
  • 噬菌体受体结合蛋白分析:研究RBP序列特征与宿主识别特异性的关联
  • 克雷伯氏菌K-基因座聚类研究:分析不同K-基因座的序列相似性与进化关系
  • 生物信息学特征工程:探索ESM-2嵌入、高维计算特征在微生物序列分析中的应用价值
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 250.07 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。