ChemGraph计算化学工作流评估数据集

数据集概述

该数据集提供脚本、参考数据和评估工具,用于基准测试ChemGraph(基于大语言模型的分子模拟框架)。包含GPT-4o-mini、Claude-3.5-haiku、Qwen2.5-14B、GPT-4o四种模型的输出结果,所有结果与ChemGraph特定版本兼容。

文件详解

  • 核心数据文件:
  • data_from_pubchempy.json:JSON格式,从PubChemPy获取的结构化化学信息,作为各实验的输入数据集。
  • manual_workflow.json:JSON格式,人工构建的参考工作流,包含真实工具调用序列和输出,用于基准测试大语言模型结果。
  • llm_workflow_[...].json:JSON格式,不同大语言模型生成的工具使用输出文件,包含模型名称、时间戳、系统提示词等元数据。
  • 脚本文件:
  • run_llm_workflow.py:Python脚本,用于执行大语言模型工作流,管理提示生成、模型选择并存储输出用于评估。
  • eval.py:Python脚本,将大语言模型生成的工作流与人工参考进行比较,计算工具使用、顺序和正确性的准确率指标。

适用场景

  • 计算化学框架评估:用于测试和比较不同大语言模型在ChemGraph分子模拟工作流中的性能。
  • 大语言模型工具调用研究:分析大语言模型在化学领域工具使用的准确性、顺序合理性及输出正确性。
  • 工作流自动化研究:探索计算化学工作流的自动化生成与优化方法。
  • 基准测试方法开发:为化学领域大语言模型应用构建标准化的评估体系和指标。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.98 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。