descriptor_free_Based_细菌病原体抗原发现无描述符机器学习框架数据集

数据集概述

本数据集为论文“A descriptor-free machine learning framework to improve antigen discovery for bacterial pathogens”配套数据,包含无描述符机器学习框架所需的原始序列、注释序列、PSE及描述符数据,支持细菌病原体抗原发现研究,存储为单个ZIP压缩文件。

文件详解

  • 压缩包文件
  • 文件名称:data.zip
  • 文件格式:ZIP
  • 解压后内容:
  • 原始序列(FASTA格式):位于data/fasta目录,含benchmark(test/test.fasta、training/negative.fasta、training/positive.fasta)和lobo(negative.fasta、positive.fasta)子目录
  • 注释序列(PARQUET格式):位于data/descriptors目录,含lobo/test(对应10种细菌的.parquet文件)、lobo/training(negative.parquet、positive.parquet)子目录
  • PSE数据(PARQUET格式):位于data/pses目录,含benchmark(test/test.parquet、training/negative.parquet、training/positive.parquet)和lobo(test对应10种细菌的.parquet文件、training/negative.parquet、training/positive.parquet)子目录

数据来源

论文“A descriptor-free machine learning framework to improve antigen discovery for bacterial pathogens”

适用场景

  • 抗原发现模型训练: 利用FASTA原始序列和PARQUET注释数据训练无描述符机器学习模型
  • 细菌病原体抗原筛选: 通过lobo/test目录的PARQUET文件筛选特定细菌(如脑膜炎奈瑟菌、肺炎链球菌)的候选抗原
  • 机器学习框架验证: 使用benchmark目录的训练/测试数据验证无描述符框架的性能
  • 生物信息学特征分析: 分析PSE及描述符数据中的抗原相关特征模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 37.7 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。