HiST_LLM_Based_LLM专家级全球历史知识基准测试数据集

数据集概述

本数据集为HiST-LLM基准测试数据集,基于Seshat全球历史数据库子集构建,包含三万六千个数据点,覆盖六百个历史社会与两千七百余篇学术参考文献,涵盖新石器时代至工业革命的全球主要区域。数据经历史专家及研究生助理审核汇编,用于评估大语言模型的专家级历史知识水平。

文件详解

  • Neurips_HiST-LLM.parquet
  • 文件格式:Parquet
  • 字段映射介绍:包含多项历史知识测试相关字段,如multiple choice question(Q)、expected completion(A)、polity相关信息(名称、起止年份、地理区域等)、事实分类(category、root cat)、数据点属性(variable、value)及OpenAI批量请求ID(id)等。
  • references.parquet
  • 文件格式:Parquet
  • 字段映射介绍:包含学术参考文献相关数据,具体字段未详细说明。
  • croissant.json
  • 文件格式:JSON
  • 字段映射介绍:记录数据集元数据,符合Croissant元数据规范。

数据来源

HiST-LLM数据集仓库(Github)

适用场景

  • 大语言模型历史知识评估: 用于测试LLM在专家级全球历史知识上的掌握程度与准确性。
  • 历史知识基准测试研究: 分析不同LLM在历史知识领域的性能差异,包括区域、时期的表现特点。
  • 历史数据结构化应用: 基于Seshat数据库的结构化历史数据,探索LLM对结构化人文社科数据的理解能力。
  • 历史知识补全与问答研究: 利用多项选择题型数据,研究LLM在历史知识问答与补全任务中的表现。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 23.88 MiB
最后更新 2026年1月25日
创建于 2026年1月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。