数据集概述
本数据集包含训练PhageHostLearn系统的噬菌体受体结合蛋白(RBP)、克雷伯氏菌K-基因座序列数据,以及ESM-2嵌入特征和CD-HIT聚类分析结果,用于噬菌体宿主预测模型开发,共8个文件。
文件详解
- 数据文件
Locibase.json:JSON格式,克雷伯氏菌K-基因座序列数据集
RBPbase.csv:CSV格式,包含噬菌体ID、蛋白ID、蛋白序列、DNA序列及XGB模型评分字段
phage_host_interactions.csv:CSV格式,噬菌体与宿主相互作用关系数据
esm2_embeddings_rbp.csv:CSV格式,噬菌体RBP的ESM-2嵌入特征数据
esm2_embeddings_loci.csv:CSV格式,克雷伯氏菌K-基因座的ESM-2嵌入特征数据
- 特征与聚类文件
hdc_features.txt:TXT格式,包含噬菌体与K-基因座的高维计算特征数据(如("KP_HGUA02_066", "A1a")对应的二进制特征向量)
Locibase_clusters_50.txt:TXT格式,克雷伯氏菌K-基因座蛋白序列50%相似性聚类结果
RBPbase_clusters_50.txt:TXT格式,噬菌体RBP序列50%相似性聚类结果
适用场景
- 噬菌体宿主预测模型开发:用于训练和优化基于序列特征的噬菌体-宿主匹配预测模型
- 噬菌体受体结合蛋白分析:研究RBP序列特征与宿主识别特异性的关联
- 克雷伯氏菌K-基因座聚类研究:分析不同K-基因座的序列相似性与进化关系
- 生物信息学特征工程:探索ESM-2嵌入、高维计算特征在微生物序列分析中的应用价值