数据集概述
本数据集支持一个用于通过ECHA ARN分组对化学品进行特征分析的Python包,基于论文《Systematic Approaches for the Encoding of Chemical Groups: A Case study》开发。包含5个文件,覆盖ARN分组数据、分子数据、随机森林模型及应用结果,用于验证模型预测,助力化学基团编码的系统研究。
文件详解
- 2023_03_24_ARN_grouping.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含ECHA ARN分组相关的化学基团编码数据
- molecules_all.pickle
- 文件格式:PICKLE
- 字段映射介绍:存储所有分子数据的序列化文件
- S5_rf_application_1_results_redacted.xlsx
- 文件格式:XLSX
- 字段映射介绍:随机森林模型应用结果的脱敏数据表格
- ARN_groups.xlsx
- 文件格式:XLSX
- 字段映射介绍:ECHA ARN分组的详细信息表格
- best_model_rf.pickle
- 文件格式:PICKLE
- 字段映射介绍:训练好的最佳随机森林模型序列化文件
数据来源
论文“Systematic Approaches for the Encoding of Chemical Groups: A Case study”(Chem. Res. Toxicol. 37, 600-619, 2024)及GitHub仓库https://github.com/pkaramertzanis/regulatory_grouping、https://github.com/patlewig/arn_cats/
适用场景
- 化学基团编码研究: 用于开发和验证化学基团的系统编码方法
- 化学品特征分析: 利用随机森林模型对化学品进行ARN分组特征分析
- 模型验证与应用: 基于REACH化学品数据集验证随机森林模型的预测效果
- 化学数据处理工具开发: 支持Python包开发,辅助化学品监管分组相关的数据处理任务