-
PAN13_Text_Alignment_原创性检测_文本复用识别训练语料
2026年1月21日 30 151 35
数据集概述 本数据集为PAN13项目的文本对齐原创性检测训练语料,包含成对文档数据,其中一方可能复用另一方文本,且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究,仅含一个压缩文件。 文件详解 文件名称:pan13-text-alignment-test-and-training.zip 文件格式:ZIP...
-
Taylor_Francis_Based_Bioengineered期刊不恰当图像重复分析补充数据
2026年1月7日 30 161 123
数据集概述 本数据集为Taylor & Francis期刊Bioengineered的不恰当图像重复分析补充数据,对应论文"Tackling paper mills requires us to prevent future contamination and clean up the past - the case of the...
-
科学文献中扭曲短语现象补充材料数据集
2025年12月20日 30 108 106
数据集概述 本数据集是预印本论文《Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established...
-
西班牙瓦伦西亚大学HCyD系文献学与文献领域博士论文抄袭识别与描述数据集
2025年12月6日 30 39 6
数据集概述 本数据集为西班牙瓦伦西亚大学HCyD系文献学与文献领域的研究资料,核心内容是针对一篇题为《Journal Citation Reports收录的毒品依赖特定期刊原创文章分析(2002-2006)》的博士论文,进行抄袭识别与描述的附录文件。 文件详解 文件名称:Anexo II.pdf 文件格式:PDF...



