Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本，其中4067条为接受的释义，3792条为拒绝的非释义，同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛，但此前未单独发布。

文件名称: Webis-CPC-11.zip
文件格式: ZIP压缩包
内部文件结构: 每个释义样本对应三个文件，分别为原始文本文件（如"1-original.txt"）、释义文本文件（如"1-paraphrase.txt"）和元数据文件（如"1-metadata.txt"）
元数据字段: 包含任务标识符、任务作者标识符、耗时、释义是否被接受或拒绝等信息

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	18.61 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。