多模态大语言模型在物理概念测试的响应数据集2025

数据集概述

该数据集包含多款多模态大语言模型对四个物理概念测试(需图像解读)的完整响应,测试包括BEMA、TUG-K、QMVI和FTGOT,共一百零二题,每题提交十次,覆盖十五款模型的测试结果。

文件详解

  • 文件名称:Polverini, Gregorcic - Data 2025-08-19.zip
  • 文件格式:ZIP(压缩包)
  • 内容说明:压缩包内包含多模态大语言模型对四个物理概念测试的响应数据,涉及十五款模型、四个测试(共一百零二题)的多次提交结果

适用场景

  • 多模态大语言模型评估:分析模型对物理图像类问题的理解与推理能力
  • 物理教育研究:探究AI模型在物理概念测试中的表现规律
  • 模型对比分析:比较不同多模态大语言模型在科学问题上的响应差异
  • 自然语言处理应用:研究多模态模型处理学科专业内容的能力边界
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.12 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。