Webis_SMC_12_用户搜索任务标注语料库_2012版

数据集概述

本数据集为Webis Search Mission Corpus 2012(Webis-SMC-12),包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务,初始分歧通过讨论达成共识。数据集仅含1个压缩文件,无目录结构。

文件详解

  • 文件名称:corpus-webis-smc-12.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含Webis-SMC-12语料库的核心数据,原始内容为用户搜索引擎交互记录,经人工标注划分逻辑会话与任务,具体字段需解压后查看(无README或预览内容)。

适用场景

  • NLP语料库分析: 用于自然语言处理领域中搜索任务语料的文本挖掘与结构分析。
  • 用户搜索行为研究: 分析用户搜索引擎交互模式、会话逻辑与任务划分规律。
  • 标注一致性验证: 研究人工标注过程中分歧解决机制对结果的影响。
  • 信息检索系统优化: 基于真实用户交互数据,优化搜索引擎的任务识别与会话管理功能。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.12 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。