数据集概述
本数据集为ChemGraph(基于大语言模型的分子模拟框架)提供基准测试所需的脚本、参考数据和评估工具,包含GPT-4o-mini、Claude-3.5-haiku、Qwen2.5-14B、GPT-4o四种语言模型的输出,所有结果兼容ChemGraph版本e1a94f855c5bec49ed9345c7713ab6080445d49e。
文件详解
- 压缩包文件:
- 文件名称:ChemGraph_evaluation_data.zip
- 文件格式:ZIP
- 包含内容:
- data_from_pubchempy.json:来自PubChemPy的结构化化学信息,作为实验输入数据集
- manual_workflow.json:人工构建的参考工作流,记录真实工具调用序列与输出,用于LLM结果基准测试
- llm_workflow_[...].json:不同LLM生成的工具使用输出JSON文件,含模型名称、时间戳、系统提示词等元数据
适用场景
- 分子模拟框架性能评估:用于测试ChemGraph在不同LLM驱动下的工具调用准确性与工作流完整性
- 大语言模型化学应用对比:分析GPT-4o-mini、Claude-3.5-haiku等模型在计算化学任务中的输出差异
- 计算化学工作流优化:基于参考工作流与LLM输出的对比,迭代优化分子模拟工具的调用逻辑
- 多智能体化学模拟研究:利用GPT-4o多智能体评估数据,探索多Agent架构在复杂化学任务中的应用效果