分子基态能计算数据集-16242分子-burakhmmtgl
数据来源:互联网公开数据
标签:分子模拟,基态能量,量子力学,机器学习,化学,药物发现,计算设计
数据概述:
本数据集包含16,242个分子的基态能量,这些能量值是通过量子力学模拟计算得出的。数据集中共有1277列。前1275列是库仑矩阵中的条目,作为分子特征。第1276列是Pubchem ID,用于标识分子结构来源。第1277列是使用Quantum Espresso软件包模拟计算得到的原子化能。
在CSV文件中,第一列(X1)是数据索引,未被使用。
数据用途概述:
该数据集适用于机器学习模型的训练和评估,旨在预测分子的原子化能。通过构建有效的预测模型,可以利用现有数据集预测新分子的性质,从而在分子计算设计和药物发现等领域发挥重要作用。具体应用场景包括:
- 训练机器学习模型以预测分子的原子化能。
- 通过模型预测新分子的性质,加速药物和新材料的开发。
- 为化学研究提供数据支持,促进对分子结构与性质关系的理解。
过去的研究:
该数据集被用于一项发表在《化学物理杂志》上的研究,并配有一篇博客文章,以更通俗易懂的方式介绍了数据及其背后的研究内容。此外,还提供了一个GitHub代码仓库,其中包含了生成数据的源代码和部分分析用的R脚本。