数据集概述
本数据集是Martyn等人2025年发布的、用于GAME API的变体效应评估工具。核心功能是对THP-1单核细胞和Jurkat T细胞的序列进行表达预测,计算变异序列与参考序列的log2倍变化,并通过皮尔逊相关系数评估预测性能。
文件详解
数据集包含两个主要文件,具体说明如下:
- Engreitz_evaluator.sif: 该文件为容器镜像,内部包含:
- 数据处理脚本与GAME API预测器连接脚本
- 预测结果解析与性能指标计算脚本
- 所有软件依赖
- evaluator_data.zip: 压缩文件,包含以下目录及文件:
- /Jurkat目录:
- all_jurkat_sequences.tsv:包含SPDI ID、参考序列、变异序列(长度约2000bp)
- all_Jurkat.tsv:SPDI格式的332个变异体数据
- /THP1目录:
- all_THP1_sequences.tsv:包含SPDI ID、参考序列、变异序列(长度约2000bp)
- all_THP1.tsv:SPDI格式的392个变异体数据
- /SPDI_toseq目录:
- instructions.tsv:R脚本运行说明(从hg38的SPDI ID提取序列)
- conda环境配置.yaml文件
- 根目录文件:
- parse_Engreitz_data.py:数据解析脚本
- File Specification_VariantEffectsFiles.png:变异文件信息说明图
适用场景
- 基因组学模型评估:用于测试和验证基因表达预测模型在变异效应分析中的性能
- 计算生物学研究:分析THP-1和Jurkat细胞中基因变异对表达的影响
- API功能测试:验证GAME API在接收序列预测请求、处理数据及返回结果的有效性
- 生物信息学工具开发:为开发类似变异效应评估工具提供参考实现与测试数据