miniF2F_Graded_LLM_Based_大语言模型定理证明难度分级完整数据

数据集概述

该数据集基于miniF2F扩展,为每个定理新增难度、区分度和难度分级三个指标。指标依据大语言模型(LLMs)证明定理的实际表现计算,更准确反映从LLM视角的定理难度,包含数据文件、说明文档及图表,为定理证明评估提供支持。

文件详解

  • miniF2F-Graded.json:JSON格式数据文件,包含各定理的基础信息及新增的难度、区分度、难度分级指标
  • README.md:Markdown格式说明文档,介绍数据集构建背景、指标定义及使用方法
  • Table1.png:PNG格式图片,可能展示定理证明相关的实验结果或统计表格
  • Table2.png:PNG格式图片,可能呈现定理难度评估或模型性能对比的可视化表格

适用场景

  • 大语言模型定理证明能力评估:基于新增指标分析LLM在不同难度定理上的表现
  • 定理证明任务难度量化研究:探索LLM视角下定理难度的影响因素与分级标准
  • 自动定理证明基准测试:作为评估工具,比较不同LLM在定理证明任务上的性能差异
  • 自然语言处理与形式推理交叉研究:分析语言模型对数学逻辑推理任务的处理能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.75 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。