数据集概述
本数据集为Webis Query Segmentation Corpus 2010(Webis-QSeC-10),包含53,437条网络查询的分割标注结果,标注由Mechanical Turk众包平台完成,每条查询至少有10名工人参与分割。数据提供训练集和测试集的压缩包,包含查询文本、众包分割结果及算法复现所需的辅助数据,可用于查询分割算法的训练与评估。
文件详解
- 训练集压缩包:
webis-qsec-10-training-set.zip
- 文件格式:ZIP
- 包含内容:
...-queries.txt:存储查询字符串及唯一ID(如2315313155对应"harvard community credit union")
...-segmentations-crowdsourced.txt:存储众包分割结果,每条记录含查询ID、分割方式及对应投票数(如2315313155的分割结果含6票全段、2票"harvard community|credit union"等)
data文件夹:含n-gram频率、PMI值、POS标签等算法复现所需数据
segmentations-of-algorithms文件夹:存储算法生成的分割结果
- 测试集压缩包:
webis-qsec-10-test-set.zip
- 文件格式:ZIP
- 包含内容:结构与训练集一致,提供测试用的查询及分割数据
数据来源
Webis Query Segmentation Corpus 2010 (Webis-QSeC-10)
适用场景
- 查询分割算法训练:利用标注数据训练自然语言处理模型,实现网络查询的自动分割
- 算法性能评估:通过测试集验证查询分割算法的准确性与鲁棒性
- 众包标注研究:分析众包工人对查询分割的决策分布规律
- 信息检索优化:基于查询分割结果提升搜索引擎的检索精准度