Webis_Query_Segmentation_Corpus_2010网络查询分割众包标注数据

数据集概述

本数据集为Webis Query Segmentation Corpus 2010(Webis-QSeC-10),包含53,437条网络查询的分割标注结果,标注由Mechanical Turk众包平台完成,每条查询至少有10名工人参与分割。数据提供训练集和测试集的压缩包,包含查询文本、众包分割结果及算法复现所需的辅助数据,可用于查询分割算法的训练与评估。

文件详解

  • 训练集压缩包:webis-qsec-10-training-set.zip
  • 文件格式:ZIP
  • 包含内容:
  • ...-queries.txt:存储查询字符串及唯一ID(如2315313155对应"harvard community credit union")
  • ...-segmentations-crowdsourced.txt:存储众包分割结果,每条记录含查询ID、分割方式及对应投票数(如2315313155的分割结果含6票全段、2票"harvard community|credit union"等)
  • data文件夹:含n-gram频率、PMI值、POS标签等算法复现所需数据
  • segmentations-of-algorithms文件夹:存储算法生成的分割结果
  • 测试集压缩包:webis-qsec-10-test-set.zip
  • 文件格式:ZIP
  • 包含内容:结构与训练集一致,提供测试用的查询及分割数据

数据来源

Webis Query Segmentation Corpus 2010 (Webis-QSeC-10)

适用场景

  • 查询分割算法训练:利用标注数据训练自然语言处理模型,实现网络查询的自动分割
  • 算法性能评估:通过测试集验证查询分割算法的准确性与鲁棒性
  • 众包标注研究:分析众包工人对查询分割的决策分布规律
  • 信息检索优化:基于查询分割结果提升搜索引擎的检索精准度
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 17.4 MiB
最后更新 2026年1月11日
创建于 2026年1月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。