数据集

大语言模型生成文本检测数据集

大语言模型生成文本检测数据集数据来源：互联网公开数据标签：大语言模型,文本检测,机器学习,数据合成,竞争数据数据概述：本数据集来自Kaggle竞赛“LLM - Detect AI Generated Text”，旨在识别由大语言模型编写的论文。数据集基于多个来源的文本，并使用T5去混淆器进行处理，包含约100万个样本。该数据集为开发新的检测解决方案提供了便利，无需每次使用GPU进行数据合成。数据用途概述：该数据集适用于大语言模型生成文本的检测研究、机器学习模型开发和验证。研究人员可以利用此数据集评估和改进文本检测算法；开发者可以测试其模型在识别AI生成文本方面的性能；竞赛参与者可以作为训练和验证数据，以提高提交结果的准确性。此外，数据集也适合用于教育培训，帮助学习者理解大语言模型生成文本的特点及检测方法。

数据与资源

大语言模型生成文本检测数据集.zipZIP
28.99 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	28.99 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

大语言模型生成文本检测数据集

数据与资源

附加信息

注册成功！