英语写作生成文本检测数据集EnglishEssayGenerationTextDetection-miguelquiceno

英语写作生成文本检测数据集EnglishEssayGenerationTextDetection-miguelquiceno

数据来源:互联网公开数据

标签:文本生成, 写作评估, 机器写作, 自然语言处理, 虚假信息检测, 语言模型, 文本分类, 深度学习

数据概述: 该数据集包含来自英语写作评估平台和生成模型的数据,旨在用于检测英语写作文本是否由人工智能生成。主要特征如下: 时间跨度:数据集未明确标注时间范围,但可视为近期数据,反映了当前人工智能生成文本的最新发展。 地理范围:数据主要来源于英语写作场景,未限定具体国家或地区,具有广泛的适用性。 数据维度:数据集包含多个CSV文件,涵盖了不同来源的英语写作文本以及相关信息,具体包括: ai_generated_train_essays.csv:包含由AI生成的训练文章,字段包括文章ID(id)、提示词ID(prompt_id)、文章内容(text)和生成状态(generated)。 test_essays.csv:包含测试文章,字段包括文章ID(id)、提示词ID(prompt_id)和文章内容(text)。 train_essays.csv:包含训练文章,字段包括文章ID(id)、提示词ID(prompt_id)、文章内容(text)和生成状态(generated)。 train_prompts.csv:包含写作提示词信息,字段包括提示词ID(prompt_id)、提示词名称(prompt_name)、写作说明(instructions)和源文本(source_text)。 train_v2_drcat_02.csv:包含训练文章,字段包括文章内容(text)、标签(label)、提示词名称(prompt_name)、来源(source)和额外字段(RDizzl3_seven)。 sample_submission.csv:包含提交样例,字段包括文章ID(id)和生成状态(generated)。 数据格式:数据以CSV格式提供,方便数据导入、处理和分析。其中,train_essays.csv和ai_generated_train_essays.csv提供了文章的生成状态,可用于训练文本生成检测模型。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、机器学习和人工智能领域的学术研究,如文本生成检测、虚假信息识别、写作质量评估等。 行业应用:可用于开发和改进文本生成检测工具、写作辅助系统、教育评估系统等。 决策支持:支持教育机构、出版机构等在评估学生写作、审核稿件时进行辅助判断,降低虚假信息传播风险。 教育和培训:作为自然语言处理、机器学习等相关课程的实训数据,帮助学生和研究人员理解文本生成检测的原理和方法。 此数据集特别适合用于构建和评估文本生成检测模型,探索不同生成文本的特征,以及研究如何提高检测的准确性和鲁棒性,从而实现对人工智能生成内容的有效识别和过滤。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 6, 2025, 16:35 (UTC)
创建于 五月 6, 2025, 16:29 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。