Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

数据集概述

该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本,其中4067条为接受的释义,3792条为拒绝的非释义,同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛,但此前未单独发布。

文件详解

  • 文件名称: Webis-CPC-11.zip
  • 文件格式: ZIP压缩包
  • 内部文件结构: 每个释义样本对应三个文件,分别为原始文本文件(如"1-original.txt")、释义文本文件(如"1-paraphrase.txt")和元数据文件(如"1-metadata.txt")
  • 元数据字段: 包含任务标识符、任务作者标识符、耗时、释义是否被接受或拒绝等信息

适用场景

  • 自然语言处理研究: 用于释义识别、文本相似度计算等任务的模型训练与评估
  • 剽窃检测研究: 作为剽窃检测算法的测试数据集
  • 众包质量评估: 分析众包平台生成释义文本的质量特征
  • 计算语言学研究: 探究人工生成释义的语言规律与特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 18.61 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。