ChemSearch_Based_原始化合物数据集_2023

数据集概述

本数据集为ChemSearch研究的原始数据集,包含分别来源于ChEMBL和PubChem的两个化合物数据集。数据涵盖特定时间节点的化合物SMILES字符串,经随机打乱处理,可用于化学信息检索相关研究。

文件详解

  • 文件名称:Datasets.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含两个数据集,分别为:
  • ChEMBL数据集:截至2023年2月的230万化合物SDF文件转换的SMILES字符串,随机打乱后取前100万条记录。
  • PubChem数据集:截至2023年4月的1.15亿化合物SMILES字符串,随机打乱后按100万条/块拆分。

数据来源

ChEMBL、PubChem

适用场景

  • 化学信息检索算法训练:用于训练和测试化合物检索相关的算法模型。
  • 化合物数据挖掘:分析不同来源化合物数据的特征和差异。
  • 化学数据库构建:作为基础数据构建化合物检索数据库。
  • 药物研发辅助:为药物研发中的化合物筛选提供数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 536.45 MiB
最后更新 2026年2月8日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。