Bangla_Based_孟加拉语信息检索测试集数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Bangla_Based_孟加拉语信息检索测试集数据

数据集概述

本数据集为孟加拉语信息检索测试集，包含1182份文档（182份泰戈尔的短篇故事、小说、散文，1000份2013年《普罗托姆·阿洛》报纸文章）、94条不同复杂度的查询及查询-文档相关性判断，填补了孟加拉语信息检索标准数据集的空白。

文件详解

文件名称：README.txt
文件格式：TXT
字段映射介绍：数据集说明文档，包含文档来源、文件构成、相关性判断规则等核心信息
文件名称：BSE_qdoc_rels.json
文件格式：JSON
字段映射介绍：查询-文档相关性判断数据，记录文档与查询的相关性评分（1-3分，1为不相关、2为部分相关、3为高度相关）
文件名称：Queries.xlsx
文件格式：XLSX
字段映射介绍：查询列表文件，包含94条查询及其对应的复杂度等级（1-4级）
文件名称：Test_Collection.zip
文件格式：ZIP
字段映射介绍：压缩包文件，包含1182份原始文档（泰戈尔作品+报纸文章）

数据来源

未提供具体原始机构，文档来源为Rabindranath Tagore作品库（https://rabindra-rachanabali.nltr.org/）和Prothom Alo报纸（https://www.prothomalo.com/）

适用场景

信息检索算法评估: 用于测试孟加拉语信息检索模型的准确性和相关性排序能力
多语言检索研究: 支持跨语言信息检索中孟加拉语方向的算法开发与对比
查询复杂度分析: 基于不同复杂度等级的查询，研究检索模型对不同类型查询的响应差异
相关性判断机制研究: 分析人工标注的相关性评分（1-3级）在检索系统优化中的应用
孟加拉语语料库构建: 为孟加拉语自然语言处理任务提供标准化的文档与查询语料

数据与资源

6583149.zipZIP
5.33 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	5.33 MiB
最后更新	2026年1月31日
创建于	2026年1月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？