数据集概述
本数据集为博士论文《Deep Learning Approaches for an Integrated Study of DNA Sequence, Epigenome and Chromatin Architecture》的全部补充材料,包含构建染色质特征深度学习模型所需的数据集清单、Capture C实验验证探针信息,以及K562细胞系中CTCF位点模拟插入后的染色质互作变化筛选结果,支持论文中deepHaem等模型的复现与扩展研究。
文件详解
- 文件名称:Appendix_A_B.xlsx
- 文件格式:XLSX
- 字段映射介绍:
Appendix A:染色质特征神经网络训练集所使用的数据集完整清单(包含数据来源、细胞系、实验类型、下载链接等)
Appendix B:Capture C验证实验所用探针序列及靶向位点坐标清单
- 文件名称:ctcf_screen_k562_with_motifs_results.txt.gz
- 文件格式:GZIP压缩纯文本(TAB分隔)
- 字段映射介绍:CTCF模拟插入筛选核心结果表,主要字段包括染色体位置(chr、start、end)、9项染色质互作变化指标(其中sum.abs.diff为论文主要使用指标)、CTCF ChIP-seq峰交集情况、基序存在状态、方向、强度及朴素整合基序得分等
数据来源
博士论文《Deep Learning Approaches for an Integrated Study of DNA Sequence, Epigenome and Chromatin Architecture》
适用场景
- 深度学习模型复现:依据Appendix A快速构建染色质多特征训练集,重现deepHaem等模型
- CTCF功能机制研究:利用模拟插入结果分析CTCF基序方向与强度对远端互作的影响
- 三维基因组实验设计:直接使用Appendix B探针清单开展Capture C或类似靶向染色质构象验证实验
- 多组学整合分析:结合DNA序列、表观修饰与Hi-C数据,探索调控元件对染色质架构的驱动作用
- 表观遗传学方法学开发:作为标准基准数据集,测试新型深度学习架构在预测染色质状态与互作上的性能