ARN_Cats_Based_化学基团编码系统方法案例研究数据_2024

数据集概述

本数据集支持一个用于通过ECHA ARN分组对化学品进行特征分析的Python包,基于论文《Systematic Approaches for the Encoding of Chemical Groups: A Case study》开发。包含5个文件,覆盖ARN分组数据、分子数据、随机森林模型及应用结果,用于验证模型预测,助力化学基团编码的系统研究。

文件详解

  • 2023_03_24_ARN_grouping.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含ECHA ARN分组相关的化学基团编码数据
  • molecules_all.pickle
  • 文件格式:PICKLE
  • 字段映射介绍:存储所有分子数据的序列化文件
  • S5_rf_application_1_results_redacted.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:随机森林模型应用结果的脱敏数据表格
  • ARN_groups.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:ECHA ARN分组的详细信息表格
  • best_model_rf.pickle
  • 文件格式:PICKLE
  • 字段映射介绍:训练好的最佳随机森林模型序列化文件

数据来源

论文“Systematic Approaches for the Encoding of Chemical Groups: A Case study”(Chem. Res. Toxicol. 37, 600-619, 2024)及GitHub仓库https://github.com/pkaramertzanis/regulatory_grouping、https://github.com/patlewig/arn_cats/

适用场景

  • 化学基团编码研究: 用于开发和验证化学基团的系统编码方法
  • 化学品特征分析: 利用随机森林模型对化学品进行ARN分组特征分析
  • 模型验证与应用: 基于REACH化学品数据集验证随机森林模型的预测效果
  • 化学数据处理工具开发: 支持Python包开发,辅助化学品监管分组相关的数据处理任务
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 159.06 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。