病毒特征识别RNA_Seq数据集_ViTrace

数据集概述

该数据集包含用于评估ViTrace模型的三个模拟数据集(Sim1、Sim2、Sim3)和一个小鼠数据集,覆盖病毒、细菌、真菌等微生物序列,用于训练和测试病毒特征识别算法,支持肿瘤转录组中病毒信号的研究。

文件详解

该数据集包含4个压缩文件,具体说明如下: - Sim1.zip: 压缩文件,由viRNAtrap构建的首个模拟数据集,包含来自hg19参考基因组和13种病毒的模拟测序读段,用于ViTrace及5个基线模型的训练与测试 - Sim2.zip: 压缩文件,独立测试用模拟数据集,用于评估ViTrace对训练未见过的病毒分类的识别能力 - Sim3.zip: 压缩文件,模拟数据集,用于评估ViTrace区分病毒与其他微生物的能力,阳性样本来自NCBI RefSeq数据库的12,567个病毒基因组,阴性样本来自细菌、真菌、古菌的平衡序列 - mouse_data.zip: 压缩文件,源自VVRD和NCBI GRC/m38的小鼠数据集,覆盖7个微生物属、4个细菌门,包含800万训练样本、80万验证样本、291万测试样本

适用场景

  • 病毒识别算法性能评估: 用于测试ViTrace等模型在RNA-Seq数据中识别病毒序列的准确性
  • 跨分类病毒检测研究: 分析模型对训练未见过的病毒分类的识别能力
  • 微生物序列区分研究: 探索病毒与细菌、真菌、古菌等其他微生物序列的区分方法
  • 小鼠微生物数据集建模: 基于小鼠微生物数据训练和测试病毒识别模型
  • 肿瘤转录组病毒信号分析: 支持肿瘤转录组中病毒特征识别的应用研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 570.06 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。