DeepSTARR_manuscript_Based_基因组区域DNA序列与活性数据

数据集概述

本数据集包含训练和评估DeepSTARR模型所用的基因组区域DNA序列数据、序列活性数据,以及已训练的DeepSTARR模型文件。数据集共8个文件,涵盖训练集、验证集、测试集的序列与活性信息,支持基因组学相关模型的训练与性能评估。

文件详解

  • 序列数据文件
  • 文件名称:Sequences_Train.fa、Sequences_Val.fa、Sequences_Test.fa
  • 文件格式:FASTA
  • 字段映射介绍:包含训练集、验证集、测试集的基因组区域DNA序列
  • 活性数据文件
  • 文件名称:Sequences_activity_Train.txt、Sequences_activity_Val.txt、Sequences_activity_Test.txt
  • 文件格式:TXT
  • 字段映射介绍:包含基因组区域的发育活性(Dev_log2_enrichment等)和管家基因活性(Hk_log2_enrichment等)相关指标,如原始富集值、标准化值、分位数归一化值等
  • 模型文件
  • 文件名称:DeepSTARR.model.h5、DeepSTARR.model.json
  • 文件格式:H5、JSON
  • 字段映射介绍:已训练的DeepSTARR Keras模型文件,包含模型结构(JSON)和权重(H5)

数据来源

DeepSTARR manuscript

适用场景

  • 基因组学模型训练: 用于训练和优化基于DNA序列的深度学习模型,预测基因组区域的功能活性
  • 模型性能评估: 利用验证集和测试集数据评估DeepSTARR模型的预测精度和泛化能力
  • 基因组功能研究: 分析DNA序列与发育、管家基因活性的关联,探索基因组区域的功能机制
  • 生物信息学工具开发: 基于已训练模型构建基因组功能预测的生物信息学应用工具
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 186.78 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。