数据集概述
本数据集是HBM4EU项目下CECScreen任务的输出,包含S71清单中的新兴关注化学品信息、元数据及预测的1相代谢物。数据整合了化学品结构属性、OPERA模型预测结果、USEPA CompTox数据库关联信息等,支持环境中新兴化学品的识别与风险评估。数据集共17个文件,涵盖CSV、XLSX、TXT三种格式。
文件详解
- 说明文档类(TXT格式,5个)
- 文件名称:README_CECscreen_OPERA2.0_models.txt、README_CECscreen_DataDictionary_v3.1.txt、HBM4EU_CECscreen_DB_DTXSIDs_v3.1.txt、HBM4EU_CECscreen_MetabolitesDB_InChIKeys_v1.0.txt、HBM4EU_CECscreen_DB_InChIKeys_v3.1.txt
- 内容:包含OPERA模型参数说明、数据字典、化学品DTXSID和InChIKey标识符列表
- 数据表格类(CSV格式,6个)
- 文件名称:HBM4EU_CECscreen_MF_1Jul2020.csv、HBM4EU_CECscreen_MetabolitesDB_v1.0.csv、HBM4EU_CECscreen_DB_v3.1.csv、HBM4EU_CECscreen_OPERAPredDB_v1.0.csv、HBM4EU_CECscreen_USEPACompToxDB_v2.0.csv、HBM4EU_CECscreen_MF_1Jul2020_plusTPs.csv
- 字段示例:Identifier、CompoundName、CAS号、SMILES、分子 formula、OPERA模型预测值、USEPA数据库关联信息等
- 数据表格类(XLSX格式,6个)
- 文件名称:README_CECscreen_DataDictionary_v3.1.xlsx、README_CECscreen_OPERA2.0_models.xlsx、HBM4EU_CECscreen_DB_v3.1.xlsx、HBM4EU_CECscreen_MetabolitesDB_v1.0.xlsx、HBM4EU_CECscreen_OPERAPredDB_v1.0.xlsx、HBM4EU_CECscreen_USEPACompToxDB_v2.0.xlsx
- 内容:结构化的数据集字典、OPERA模型参数表、化学品及代谢物的详细属性表格
数据来源
NORMAN Suspect List Exchange平台,关联论文Meijer et al (2021) DOI:10.1016/j.envint.2021.106511,数据集DOI:10.5281/zenodo.3956586
适用场景
- 环境化学品风险评估: 利用筛选清单识别环境中潜在的新兴关注化学品,结合元数据评估其暴露风险
- 化学品代谢研究: 分析预测的1相代谢物结构,探究新兴化学品在生物体内的转化路径
- 环境监测方法开发: 基于InChIKey等标识符,开发针对新兴化学品的环境样品检测方法
- 化学品数据库整合: 将数据集与USEPA CompTox等数据库关联,完善化学品环境毒理学信息
- 预测模型验证: 利用OPERA模型预测结果,验证计算毒理学模型在新兴化学品评估中的适用性