HAVEN病毒蛋白质宿主预测模型数据集

数据集概述

该数据集包含用于预训练、微调及评估HAVEN模型的相关数据。HAVEN是基于病毒蛋白质序列的语言模型,预训练数据涵盖约一百二十万条病毒科蛋白质序列,可用于预测病毒蛋白质序列对应的宿主来源。

文件详解

  • README.txt:文本格式,说明数据集用途、HAVEN模型背景及数据来源等信息
  • uniref90_coronaviridae.zip:压缩格式,包含冠状病毒科的蛋白质序列数据
  • uniref90_viruses.zip:压缩格式,包含病毒科的蛋白质序列数据

数据来源

  • 病毒蛋白质序列:UniRef90
  • 病毒宿主信息:欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)维护的欧洲核苷酸档案(ENA)

适用场景

  • 病毒学研究:分析病毒蛋白质序列与宿主的关联
  • 生物信息学模型开发:用于病毒蛋白质语言模型的训练与优化
  • 病毒宿主预测:基于病毒蛋白质序列推断潜在宿主
  • 传染病防控研究:辅助病毒跨物种传播风险评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 371.98 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。