数据集

AI生成与人类写作检测数据集

数据来源：互联网公开数据

标签：AI生成文本,人类写作,文本分类,自然语言处理,NLP,机器学习,生成式AI,数据集

数据概述
本数据集包含一组经过标注的文本数据，用于区分由AI模型（如GPT-3.5）生成的文本和人类书写的文本。数据集来源为Kaggle竞赛项目，目标是检测文本是否由AI生成。数据集中每个文本样本标注了来源（AI生成或人类写作）以及对应的信息（如生成提示、重写指令等）。数据集结构清晰，样本包括文本内容、来源标签和元信息，适用于文本分类、生成式AI检测和自然语言处理研究等场景。

数据集包含以下主要内容：
1. 文本内容：每条记录包含一段文本，文本长度和主题多样，涵盖简单话题作文、意图混淆类作文和人类作文的改写版本。
2. 来源标签：标注每段文本的生成来源，分为“AI生成”（标签为1）和“人类写作”（标签为0）。
3. 元信息：包括生成提示、改写指令等额外信息，帮助理解文本的生成背景和上下文。

数据用途概述
该数据集适用于以下场景：
1. AI生成文本检测：可用于训练和评估AI生成文本检测模型，帮助区分AI生成文本和人类写作。
2. 自然语言处理研究：为NLP研究者提供高质量的标注数据集，支持文本分类、生成式模型评估等任务。
3. 机器学习实验：可用于开发和测试文本分类算法，特别是针对AI生成文本检测的机器学习模型。
4. 教育与合规场景：帮助教育机构和学术组织检测学生作业或论文中是否存在AI生成的内容，确保学术诚信。
5. 内容审核：支持对网络文本的自动化审核，识别和过滤AI生成的低质量或恶意内容。

通过使用该数据集，研究人员和开发者可以更深入地理解AI生成文本的特征，并开发出更准确的检测工具和方法。同时，数据集的多样性也为模型泛化能力的提升提供了丰富的训练素材。

数据与资源

AI生成与人类写作检测数据集.zipZIP
17.97 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	17.97 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

AI生成与人类写作检测数据集

数据与资源

附加信息

注册成功！