印度及多任务分子侧边任务预测数据集1963-2021

印度及多任务分子侧边任务预测数据集1963-2021 数据来源:互联网公开数据 标签:分子预测,印度,多任务学习,化学信息学,图神经网络,机器学习,数据集拆分

数据概述: 本数据集包含多个来自MoleculeNet的分子属性预测数据集,其中ogbg-molsider是一个针对多任务二分类问题的分子侧边任务数据集。每个分子被表示为一个图,其中节点代表原子,边代表化学键。输入节点特征为9维,包含原子编号、手性等信息。数据集中的分子使用RDKit进行预处理,并提供了将SMILES字符串转换为图对象的脚本。此外,数据集还提供了AtomEncoder和BondEncoder模块用于编码原子和键特征。

数据用途概述: 该数据集适用于分子属性预测、多任务学习、化学信息学研究以及图神经网络的预训练和评估。研究人员可以利用此数据集进行分子特性的预测,开发新的模型或方法;投资机构可借助数据识别有潜力的化学分子;同时,数据集也适合用于教育培训,帮助学习者理解分子预测和图神经网络的基本原理。

举例: ogbg-molsider数据集中的每个分子被表示为一个图,节点代表原子(包含原子编号、手性等特征),边代表化学键。数据集中的分子可以用于预测特定的分子属性,例如是否抑制HIV病毒复制。预测任务的目标是尽可能准确地预测分子的属性标签。数据集采用基于化学结构的支架拆分方法,将分子分为不同的子集,以提供更现实的模型性能评估。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.38 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。