BIRCO_Based_LLM系统评估用精选信息检索数据集

本数据集是经过精心整理的现有信息检索数据集集合，适用于基于大型语言模型（LLM）的系统评估。包含DORIS-MAE、ArguAna、WhatThatBook、Clinical-Trial和RELIC五个子数据集，每个子数据集均包含查询文本、语料库文本及查询相关性评分，支持LLM系统的检索性能评估。

文件名称：BIRCO_dataset.json
文件格式：JSON
字段映射介绍：文件包含五个子数据集（doris-mae、arguana、wtb、clinical-trial、relic），每个子数据集结构如下：
"query"：包含多个查询文本，以query_id为键，查询文本为值（如doris-mae含60条查询）
"corpus"：包含多个语料文本，以corpus_id为键，语料文本为值（如doris-mae含5543条论文摘要）
"qrel"：包含查询与语料的相关性评分，以query_id为键，corpus_id和对应的0-2分之间的相关性评分为值（如doris-mae平均候选池大小为110.55）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	19.2 MiB
最后更新	2026年2月9日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。