大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil

大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil 数据来源:互联网公开数据 标签:LLM,大模型,文本检测,AI生成,重复文本,数据集,文本处理,训练数据,机器学习

数据概述: 本数据集包含用于“LLM - Detect AI Generated Text”竞赛的训练数据集中的论文及其在Persuade语料库中的相应副本(重复文本)。训练数据集中的论文通过添加或删除文本进行了修改,使得普通的pandas dataframe drop_duplicates()方法无法检测到这些重复项。数据集旨在用于识别和处理AI生成文本中的重复内容。

数据用途概述: 该数据集适用于文本检测研究、AI生成内容识别、数据清理和预处理等场景。研究人员可以利用此数据集训练和评估文本重复检测模型;教育机构可将其用于教学实验,帮助学生理解文本处理的基本方法;开发人员可以使用这些数据测试和优化文本去重算法。对于参与文本检测竞赛的研究者来说,该数据集提供了有价值的训练和测试数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.62 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。