数据集概述
本数据集为HiST-LLM基准测试数据集,基于Seshat全球历史数据库子集构建,包含三万六千个数据点,覆盖六百个历史社会与两千七百余篇学术参考文献,涵盖新石器时代至工业革命的全球主要区域。数据经历史专家及研究生助理审核汇编,用于评估大语言模型的专家级历史知识水平。
文件详解
- Neurips_HiST-LLM.parquet
- 文件格式:Parquet
- 字段映射介绍:包含多项历史知识测试相关字段,如multiple choice question(Q)、expected completion(A)、polity相关信息(名称、起止年份、地理区域等)、事实分类(category、root cat)、数据点属性(variable、value)及OpenAI批量请求ID(id)等。
- references.parquet
- 文件格式:Parquet
- 字段映射介绍:包含学术参考文献相关数据,具体字段未详细说明。
- croissant.json
- 文件格式:JSON
- 字段映射介绍:记录数据集元数据,符合Croissant元数据规范。
数据来源
HiST-LLM数据集仓库(Github)
适用场景
- 大语言模型历史知识评估: 用于测试LLM在专家级全球历史知识上的掌握程度与准确性。
- 历史知识基准测试研究: 分析不同LLM在历史知识领域的性能差异,包括区域、时期的表现特点。
- 历史数据结构化应用: 基于Seshat数据库的结构化历史数据,探索LLM对结构化人文社科数据的理解能力。
- 历史知识补全与问答研究: 利用多项选择题型数据,研究LLM在历史知识问答与补全任务中的表现。