数据集概述
本数据集为kundajelab开发的extended_coda模型相关文件,用于单碱基分辨率的ChIP-seq数据降噪。包含模型文件、权重文件、预测结果文件、示例样本文件及区间文件等,共5个文件,支持相关生物信息学分析任务。
文件详解
- 模型与权重文件
- 文件名称:weights.h5、model
- 文件格式:.h5、无扩展名
- 字段映射介绍:weights.h5为模型权重文件;model为模型主体文件,用于ChIP-seq数据降噪计算。
- 预测结果文件
- 文件名称:predictions.h5
- 文件格式:.h5
- 字段映射介绍:存储模型对ChIP-seq数据降噪后的预测结果。
- 示例样本文件
- 文件名称:example_files-H3K27AC_subsampled.bw.zip
- 文件格式:.zip
- 字段映射介绍:压缩包内包含H3K27AC亚采样的ChIP-seq示例样本文件(.bw格式)。
- 区间文件
- 文件名称:example_files-intervals.tsv
- 文件格式:.tsv
- 字段映射介绍:包含染色体区间信息,字段为chr(染色体)、start(起始位置)、end(终止位置)、id(序号),示例内容如chr22 29467163 29492188 1等。
数据来源
https://github.com/kundajelab/coda
适用场景
- ChIP-seq数据降噪分析: 利用模型文件对单碱基分辨率ChIP-seq数据进行降噪处理。
- 生物信息学模型验证: 基于权重文件和模型文件验证extended_coda模型的性能。
- 组蛋白修饰数据分析: 通过示例样本文件(如H3K27AC)开展组蛋白修饰相关研究。
- 基因组区间分析: 结合区间文件研究特定基因组区域的ChIP-seq信号特征。