数据集概述
本数据集为Ing. Jozef Fülöp(布拉格化工学院,2024)的硕士论文“Cheminformatics Analysis of RNA-Binding Ligands”相关数据,包含RNA结合分子分类的原始及处理数据,分为Set1 Large(77,420个化合物)和Set2 Small(3,922个化合物)两部分,支持RNA结合配体的化学信息学分析。
文件详解
- 数据集压缩包
- 文件名称:ThesisDataset_RNA_binders.zip
- 文件格式:ZIP
- 字段映射介绍:包含Set1 Large和Set2 Small的处理后CSV文件,Set1 Large CSV字段有smiles(规范SMILES)、source(来源库)、ecfp6(2048位指纹)、bit_info_map(指纹位-分子片段映射)、rna(RNA结合二进制标识);Set2 Small CSVs字段有source(来源库/子集)、smiles(规范SMILES)、ecfp6(2048位指纹)、bit_info_map(指纹位-分子片段映射)、label(结合标签二进制标识)
- 元数据文件
- 文件名称:metadata.json
- 文件格式:JSON
- 字段映射介绍:包含title、description、keywords、license、version、creators、date_of_collection、date_of_processing、method、references、sources等元数据字段
- 说明文档
- 文件名称:README.md
- 文件格式:MD
- 字段映射介绍:包含数据集版本、收集及处理日期、作者、数据集概述等信息
- 许可文件
- 文件名称:LICENSE
- 文件格式:无扩展名
- 字段映射介绍:记录CC BY 4.0许可条款
数据来源
Ing. Jozef Fülöp的硕士论文“Cheminformatics Analysis of RNA-Binding Ligands”(布拉格化工学院,2024)
适用场景
- RNA结合配体分类模型构建: 利用Set1 Large和Set2 Small的化合物数据及标签,训练和验证RNA结合分子的分类模型
- 化学信息学特征分析: 通过ecfp6指纹和bit_info_map,研究RNA结合配体的分子结构特征
- 分子库筛选优化: 基于Set1 Large的多来源化合物库数据,筛选潜在RNA结合配体
- 药物发现辅助研究: 结合RNA结合配体的分类结果,辅助RNA靶向药物的早期发现与设计