Bangla_Based_孟加拉语信息检索测试集数据

数据集概述

本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。

文件详解

  • 文件名称:README.txt
  • 文件格式:TXT
  • 字段映射介绍:数据集说明文档,包含文档来源、文件构成、相关性判断规则等核心信息
  • 文件名称:BSE_qdoc_rels.json
  • 文件格式:JSON
  • 字段映射介绍:查询-文档相关性判断数据,记录文档与查询的相关性评分(1-3分,1为不相关、2为部分相关、3为高度相关)
  • 文件名称:Queries.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:查询列表文件,包含94条查询及其对应的复杂度等级(1-4级)
  • 文件名称:Test_Collection.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包文件,包含1182份原始文档(泰戈尔作品+报纸文章)

数据来源

未提供具体原始机构,文档来源为Rabindranath Tagore作品库(https://rabindra-rachanabali.nltr.org/)和Prothom Alo报纸(https://www.prothomalo.com/

适用场景

  • 信息检索算法评估: 用于测试孟加拉语信息检索模型的准确性和相关性排序能力
  • 多语言检索研究: 支持跨语言信息检索中孟加拉语方向的算法开发与对比
  • 查询复杂度分析: 基于不同复杂度等级的查询,研究检索模型对不同类型查询的响应差异
  • 相关性判断机制研究: 分析人工标注的相关性评分(1-3级)在检索系统优化中的应用
  • 孟加拉语语料库构建: 为孟加拉语自然语言处理任务提供标准化的文档与查询语料
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.33 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。