数据集概述
本数据集包含Ambit-SMIRKS与RDKit两款化学信息学工具的SMIRKS转换算法基准测试代码及结果。测试使用545种化合物和84个反应,完成超46000次转换,记录了计算时间、反应位点数量等关键指标,用于对比两款工具的性能差异及化学反应处理能力。
文件详解
- 输入文件
- 文件名称:smiles-set.txt
- 文件格式:TXT
- 字段映射介绍:包含545种化合物的SMILES线性表示,为测试提供化合物输入集
- 文件名称:SMIRKS-RetroDB.txt
- 文件格式:TXT
- 字段映射介绍:包含84个来自RetroTransformDB的反应SMIRKS线性表示,为测试提供反应规则集
- 测试代码文件
- 文件名称:TestAmbitSmirks.java
- 文件格式:JAVA
- 字段映射介绍:Ambit-SMIRKS工具的测试Java代码,用于执行SMIRKS转换测试
- 文件名称:rdkit-smirks-test-02.py
- 文件格式:PY
- 字段映射介绍:RDKit工具的测试Python代码,用于执行SMIRKS转换测试
- 原始输出文件
- 文件名称:ambit-out-no-eq-filter.txt
- 文件格式:TXT
- 字段映射介绍:Ambit-SMIRKS的原始输出,按SMIRKS编号分组,记录每个化合物的反应位点数量及产物
- 文件名称:rdkit-out.txt
- 文件格式:TXT
- 字段映射介绍:RDKit的原始输出,格式同ambit-out-no-eq-filter.txt,记录RDKit的转换结果
- 统计文件
- 文件名称:time-stat.txt
- 文件格式:TXT
- 字段映射介绍:包含两款工具的计算时间详细统计,记录3次重复运行的耗时数据
- 文件名称:compare-ambit-rdkit.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含SMILES(目标分子)、smirks_num(反应编号)、Ambit-NEF(Ambit反应位点数)、RDKit(RDKit反应位点数)、Diff(位点数差异)、FlagDiff(差异标记)、FlagRDKitReact(RDKit反应标记)、FlagAmbitReact(Ambit反应标记)等对比字段
数据来源
论文“Ambit-SMIRKS: a Software Module for Reaction Representation, Reaction Search and Structure Transformation”
适用场景
- 化学信息学工具性能评估: 对比Ambit-SMIRKS与RDKit在SMIRKS转换中的计算效率、反应位点数差异
- 药物化学反应预测: 利用工具的SMIRKS转换能力,预测化合物在特定反应中的产物及反应位点
- 化学信息学算法优化: 分析两款工具在分子等价位点处理、内部结构表示上的差异,指导算法改进
- 毒理学化合物筛选: 结合Munro等提供的化合物集,评估工具在毒理学相关化合物反应分析中的适用性