数据集

英语写作生成文本检测数据集EnglishEssayGenerationTextDetection-miguelquiceno

数据来源：互联网公开数据

标签：文本生成, 写作评估, 机器写作, 自然语言处理, 虚假信息检测, 语言模型, 文本分类, 深度学习

数据概述：该数据集包含来自英语写作评估平台和生成模型的数据，旨在用于检测英语写作文本是否由人工智能生成。主要特征如下：时间跨度：数据集未明确标注时间范围，但可视为近期数据，反映了当前人工智能生成文本的最新发展。地理范围：数据主要来源于英语写作场景，未限定具体国家或地区，具有广泛的适用性。数据维度：数据集包含多个CSV文件，涵盖了不同来源的英语写作文本以及相关信息，具体包括： ai_generated_train_essays.csv：包含由AI生成的训练文章，字段包括文章ID（id）、提示词ID（prompt_id）、文章内容（text）和生成状态（generated）。 test_essays.csv：包含测试文章，字段包括文章ID（id）、提示词ID（prompt_id）和文章内容（text）。 train_essays.csv：包含训练文章，字段包括文章ID（id）、提示词ID（prompt_id）、文章内容（text）和生成状态（generated）。 train_prompts.csv：包含写作提示词信息，字段包括提示词ID（prompt_id）、提示词名称（prompt_name）、写作说明（instructions）和源文本（source_text）。 train_v2_drcat_02.csv：包含训练文章，字段包括文章内容（text）、标签（label）、提示词名称（prompt_name）、来源（source）和额外字段（RDizzl3_seven）。 sample_submission.csv：包含提交样例，字段包括文章ID（id）和生成状态（generated）。数据格式：数据以CSV格式提供，方便数据导入、处理和分析。其中，train_essays.csv和ai_generated_train_essays.csv提供了文章的生成状态，可用于训练文本生成检测模型。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、机器学习和人工智能领域的学术研究，如文本生成检测、虚假信息识别、写作质量评估等。行业应用：可用于开发和改进文本生成检测工具、写作辅助系统、教育评估系统等。决策支持：支持教育机构、出版机构等在评估学生写作、审核稿件时进行辅助判断，降低虚假信息传播风险。教育和培训：作为自然语言处理、机器学习等相关课程的实训数据，帮助学生和研究人员理解文本生成检测的原理和方法。此数据集特别适合用于构建和评估文本生成检测模型，探索不同生成文本的特征，以及研究如何提高检测的准确性和鲁棒性，从而实现对人工智能生成内容的有效识别和过滤。

数据与资源

versions_20250323201734.zipZIP
29.48 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	29.48 MiB
最后更新	2025年5月6日
创建于	2025年5月6日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。