Agarwal联合文库56k序列模型评估数据集2025

数据集概述

本数据集为Agarwal等人2025年发布的联合文库56k序列模型评估容器,用于通过GAME API评估预测模型性能。包含56982条顺式调控元件序列及正负对照序列,覆盖3种细胞类型的测量数据,支持表达预测和细胞类型特异性评估。

文件详解

该数据集包含2个文件,具体说明如下: - 主要文件: - agarwal_joint_56k.sif: SIF格式容器文件,包含数据处理脚本、预测结果解析脚本、性能指标计算脚本及所有软件依赖,用于连接GAME API预测器 - evaluator_data.zip: ZIP格式压缩文件,包含评估所需数据 - 2023-03-03628C-Table_S10-joint_lib_design_56k_measured.xlsx: Excel文件,含序列设计及坐标信息(每条为230bp寡核苷酸) - all_cell_type_measured.xlsx: Excel文件,含约56k序列在3种细胞类型中的测量值(log2(rna/dna))

适用场景

  • 基因调控模型评估: 用于测试基因表达预测模型在顺式调控元件序列上的准确性
  • 细胞类型特异性研究: 分析模型对不同细胞类型表达差异的预测能力
  • 基因组学API集成: 作为GAME API的评估基准,验证预测工具的性能
  • 基因元件功能分析: 研究顺式调控元件在多细胞类型中的表达模式及调控机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 147.27 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。