数据集概述
本数据集包含用于测试生物信息学硕士论文的化学导航测试相关数据与配置文件,涉及不同规模的测试配置、测试结果原始数据及分子对选择列表,支持对化学导航系统性能的验证与分析。
文件详解
该数据集包含以下类型的文件:
- 配置文件:
- 命名模式:navigator_250.conf、navigator_500.conf、navigator_5000.conf
- 文件格式:HOCON格式
- 说明:分别对应测试规模为250、500、5000的配置文件
- 测试结果原始数据文件:
- 命名模式:set_250_raw.csv、set_250_raw.html、set_500_raw.csv、set_500_raw.html、set_5000_raw.csv、set_5000_raw.html、set_base.csv、set_base.html
- 文件格式:CSV与HTML
- 字段示例(CSV文件):app_id(应用ID)、duration(持续时间)、id(测试ID)、num(编号)、repetition(重复次数)、score(得分)、set_id(测试集ID)、smiles(分子结构SMILES表达式)、succeeded(是否成功)
- 分子选择列表文件:
- 文件名称:zinc_smiles_selection.smi
- 文件格式:SMI格式
- 说明:包含从ZINC数据库选取的200对分子的SMILES表达式,用于导航测试
适用场景
- 生物信息学研究:验证化学导航系统的算法性能与稳定性
- 计算化学分析:分析不同规模测试集下分子导航任务的结果差异
- 学术论文验证:复现相关硕士论文中的实验结果与分析过程
- 化学信息学工具开发:为化学分子导航类工具的优化提供测试数据支撑