-
Reproduction_Package_多语言跨语言剽窃检测评估复现数据
2026年1月21日 30 99 83
数据集概述 本数据集为学士学位论文《Multi-Language and Cross-Language Plagiarism Detection》的复现包,包含论文评估所用全部数据,可确保论文结果的持续复现。内容涵盖修改版JPlag工具、评估用数据集及自动化运行脚本,支持多语言和跨语言剽窃检测的技术验证与结果复现。 文件详解...
-
Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据
2025年12月9日 30 87 67
数据集概述 该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本,其中4067条为接受的释义,3792条为拒绝的非释义,同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛,但此前未单独发布。 文件详解 文件名称: Webis-CPC-11.zip 文件格式: ZIP压缩包 内部文件结构:...
-
语义相关性句子对数据集2023
2025年12月9日 30 89 83
数据集概述 该数据集包含五千五百个英文句子对,每个句子对依据语义相关程度被赋予零到一的评分,零代表最不相关,一代表最相关。数据通过最佳最差标度法(Best-Worst Scaling)收集,旨在支持句子语义相关性、句子表示方法及相关应用的研究。 文件详解 核心数据文件: sem_text_rel_ranked.csv:...
-
文本抄袭检测数据集TextPlagiarismDetectionDataset-navedahmad064
2025年5月19日 30 198 63
文本抄袭检测数据集TextPlagiarismDetectionDataset-navedahmad064 数据来源:互联网公开数据 标签:文本抄袭, 剽窃检测, 自然语言处理, 文本相似度, 二分类, 语料库, 学术研究, 文本分析 数据概述: 该数据集包含用于文本抄袭检测的文本文件和标注信息。主要特征如下:...



