数据集

大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil

大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil 数据来源：互联网公开数据标签：LLM,大模型,文本检测,AI生成,重复文本,数据集,文本处理,训练数据,机器学习

数据概述：本数据集包含用于“LLM - Detect AI Generated Text”竞赛的训练数据集中的论文及其在Persuade语料库中的相应副本（重复文本）。训练数据集中的论文通过添加或删除文本进行了修改，使得普通的pandas dataframe drop_duplicates()方法无法检测到这些重复项。数据集旨在用于识别和处理AI生成文本中的重复内容。

数据用途概述：该数据集适用于文本检测研究、AI生成内容识别、数据清理和预处理等场景。研究人员可以利用此数据集训练和评估文本重复检测模型；教育机构可将其用于教学实验，帮助学生理解文本处理的基本方法；开发人员可以使用这些数据测试和优化文本去重算法。对于参与文本检测竞赛的研究者来说，该数据集提供了有价值的训练和测试数据。

数据与资源

versions_20250403184655.zipZIP
1.62 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.62 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil

数据与资源

附加信息

注册成功！