数据集概述
该数据集为微软研究院精准化学集合(MSR-ACC)中的MSR-ACC/TAE25,包含七万七千个小分子的精准总原子化能(TAE)数据,分子含至多五个非氢元素(至氩,不含稀有气体原子),原子化能通过W1-F12协议在CCSD(T)/CBS水平计算。
文件详解
该数据集包含三个ZIP格式压缩文件,具体说明如下:
- 文件名称: msr-acc_tae25_all.zip
- 文件格式: ZIP (.zip)
- 文件内容: 包含所有分子数据的压缩包,内部为符合QCSchema格式的JSON文件,每个文件编码一个分子的结构与属性信息
- 文件名称: msr-acc_tae25_train.zip
- 文件格式: ZIP (.zip)
- 文件内容: 包含训练集分子数据的压缩包,内部为符合QCSchema格式的JSON文件,每个文件编码一个分子的结构与属性信息
- 文件名称: msr-acc_tae25_valid.zip
- 文件格式: ZIP (.zip)
- 文件内容: 包含验证集分子数据的压缩包,内部为符合QCSchema格式的JSON文件,每个文件编码一个分子的结构与属性信息
- JSON文件字段映射(QCSchema格式):
- symbols: 原子符号列表
- geometry: 几何坐标列表
- name: 分子名称
- molecular_charge: 分子电荷
- molecular_multiplicity: 分子多重度
- atomic_numbers: 原子序数列表
- extras: 额外信息字段,包含原子计数、分子图、单重态-三重态能级差、原子化能等关键属性
适用场景
- 量子化学研究: 用于验证和改进量子化学计算方法,特别是高精度耦合簇方法的性能评估
- 机器学习模型训练: 为分子性质预测模型提供高质量的原子化能基准数据
- 化学空间探索: 分析不同分子结构与原子化能之间的关系,探索化学空间的规律
- 计算化学工具开发: 作为测试集,用于开发和优化分子模拟与计算工具
- 分子设计研究: 辅助设计具有特定能量特性的小分子化合物