数据集概述
本数据集包含训练和评估DeepSTARR模型所用的基因组区域DNA序列数据、序列活性数据,以及已训练的DeepSTARR模型文件。数据集共8个文件,涵盖训练集、验证集、测试集的序列与活性信息,支持基因组学相关模型的训练与性能评估。
文件详解
- 序列数据文件
- 文件名称:Sequences_Train.fa、Sequences_Val.fa、Sequences_Test.fa
- 文件格式:FASTA
- 字段映射介绍:包含训练集、验证集、测试集的基因组区域DNA序列
- 活性数据文件
- 文件名称:Sequences_activity_Train.txt、Sequences_activity_Val.txt、Sequences_activity_Test.txt
- 文件格式:TXT
- 字段映射介绍:包含基因组区域的发育活性(Dev_log2_enrichment等)和管家基因活性(Hk_log2_enrichment等)相关指标,如原始富集值、标准化值、分位数归一化值等
- 模型文件
- 文件名称:DeepSTARR.model.h5、DeepSTARR.model.json
- 文件格式:H5、JSON
- 字段映射介绍:已训练的DeepSTARR Keras模型文件,包含模型结构(JSON)和权重(H5)
数据来源
DeepSTARR manuscript
适用场景
- 基因组学模型训练: 用于训练和优化基于DNA序列的深度学习模型,预测基因组区域的功能活性
- 模型性能评估: 利用验证集和测试集数据评估DeepSTARR模型的预测精度和泛化能力
- 基因组功能研究: 分析DNA序列与发育、管家基因活性的关联,探索基因组区域的功能机制
- 生物信息学工具开发: 基于已训练模型构建基因组功能预测的生物信息学应用工具