DeepSTARR_manuscript_Based_基因组区域DNA序列与活性数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

DeepSTARR_manuscript_Based_基因组区域DNA序列与活性数据

数据集概述

本数据集包含训练和评估DeepSTARR模型所用的基因组区域DNA序列数据、序列活性数据，以及已训练的DeepSTARR模型文件。数据集共8个文件，涵盖训练集、验证集、测试集的序列与活性信息，支持基因组学相关模型的训练与性能评估。

文件详解

序列数据文件
文件名称：Sequences_Train.fa、Sequences_Val.fa、Sequences_Test.fa
文件格式：FASTA
字段映射介绍：包含训练集、验证集、测试集的基因组区域DNA序列
活性数据文件
文件名称：Sequences_activity_Train.txt、Sequences_activity_Val.txt、Sequences_activity_Test.txt
文件格式：TXT
字段映射介绍：包含基因组区域的发育活性（Dev_log2_enrichment等）和管家基因活性（Hk_log2_enrichment等）相关指标，如原始富集值、标准化值、分位数归一化值等
模型文件
文件名称：DeepSTARR.model.h5、DeepSTARR.model.json
文件格式：H5、JSON
字段映射介绍：已训练的DeepSTARR Keras模型文件，包含模型结构（JSON）和权重（H5）

数据来源

DeepSTARR manuscript

适用场景

基因组学模型训练: 用于训练和优化基于DNA序列的深度学习模型，预测基因组区域的功能活性
模型性能评估: 利用验证集和测试集数据评估DeepSTARR模型的预测精度和泛化能力
基因组功能研究: 分析DNA序列与发育、管家基因活性的关联，探索基因组区域的功能机制
生物信息学工具开发: 基于已训练模型构建基因组功能预测的生物信息学应用工具

数据与资源

5502060.zipZIP
186.78 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	186.78 MiB
最后更新	2026年1月18日
创建于	2026年1月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？