数据集

Webis_Query_Segmentation_Corpus_2010网络查询分割众包标注数据

数据集概述

本数据集为Webis Query Segmentation Corpus 2010（Webis-QSeC-10），包含53,437条网络查询的分割标注结果，标注由Mechanical Turk众包平台完成，每条查询至少有10名工人参与分割。数据提供训练集和测试集的压缩包，包含查询文本、众包分割结果及算法复现所需的辅助数据，可用于查询分割算法的训练与评估。

文件详解

训练集压缩包：webis-qsec-10-training-set.zip
文件格式：ZIP
包含内容：
...-queries.txt：存储查询字符串及唯一ID（如2315313155对应"harvard community credit union"）
...-segmentations-crowdsourced.txt：存储众包分割结果，每条记录含查询ID、分割方式及对应投票数（如2315313155的分割结果含6票全段、2票"harvard community|credit union"等）
data文件夹：含n-gram频率、PMI值、POS标签等算法复现所需数据
segmentations-of-algorithms文件夹：存储算法生成的分割结果
测试集压缩包：webis-qsec-10-test-set.zip
文件格式：ZIP
包含内容：结构与训练集一致，提供测试用的查询及分割数据

数据来源

Webis Query Segmentation Corpus 2010 (Webis-QSeC-10)

适用场景

查询分割算法训练：利用标注数据训练自然语言处理模型，实现网络查询的自动分割
算法性能评估：通过测试集验证查询分割算法的准确性与鲁棒性
众包标注研究：分析众包工人对查询分割的决策分布规律
信息检索优化：基于查询分割结果提升搜索引擎的检索精准度

数据与资源

3256198.zipZIP
17.40 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	17.4 MiB
最后更新	2026年1月11日
创建于	2026年1月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。