数据集概述
本数据集为论文“A descriptor-free machine learning framework to improve antigen discovery for bacterial pathogens”配套数据,包含无描述符机器学习框架所需的原始序列、注释序列、PSE及描述符数据,支持细菌病原体抗原发现研究,存储为单个ZIP压缩文件。
文件详解
- 压缩包文件
- 文件名称:data.zip
- 文件格式:ZIP
- 解压后内容:
- 原始序列(FASTA格式):位于data/fasta目录,含benchmark(test/test.fasta、training/negative.fasta、training/positive.fasta)和lobo(negative.fasta、positive.fasta)子目录
- 注释序列(PARQUET格式):位于data/descriptors目录,含lobo/test(对应10种细菌的.parquet文件)、lobo/training(negative.parquet、positive.parquet)子目录
- PSE数据(PARQUET格式):位于data/pses目录,含benchmark(test/test.parquet、training/negative.parquet、training/positive.parquet)和lobo(test对应10种细菌的.parquet文件、training/negative.parquet、training/positive.parquet)子目录
数据来源
论文“A descriptor-free machine learning framework to improve antigen discovery for bacterial pathogens”
适用场景
- 抗原发现模型训练: 利用FASTA原始序列和PARQUET注释数据训练无描述符机器学习模型
- 细菌病原体抗原筛选: 通过lobo/test目录的PARQUET文件筛选特定细菌(如脑膜炎奈瑟菌、肺炎链球菌)的候选抗原
- 机器学习框架验证: 使用benchmark目录的训练/测试数据验证无描述符框架的性能
- 生物信息学特征分析: 分析PSE及描述符数据中的抗原相关特征模式