基于语言工具的AI生成文本错误分析数据集

基于语言工具的AI生成文本错误分析数据集 数据来源:互联网公开数据 标签:AI检测,文本分析,语言工具,错误分析,生成文本,写作风格,自然语言处理,教育,评估 数据概述: 本数据集基于竞赛提供的训练集,利用LanguageTool(一款开源的语法和风格检查工具)对其中的文章进行了全面检查,旨在揭示AI生成文本中常见的错误类型。数据集的核心在于记录了AI生成文本中被手动添加的拼写错误和语法错误,这些错误被设计成更像人类写作的风格。数据集包含两个主要文件:

essay_checks.csv:该文件记录了每篇文章的ID及是否为AI生成文本的标识,以及LanguageTool检测到的具体错误信息。具体字段包括:

essay:文章ID。 generated:布尔值,指示文章是否为AI生成。 ruleId:错误规则ID。 category:错误类别(如语法、拼写等)。 ruleIssueType:错误类型。 replacements:建议的替换方案数量。 error:实际的错误文本。 fix:LanguageTool建议的第一个修复方案。 start:错误在文章中的起始位置索引。 stop:错误在文章中的结束位置索引。

fixes_errors_counts:该文件统计了每个独特错误及其最常见的修复方案,以及该错误出现的次数。

数据用途概述: 该数据集可用于开发和评估AI生成文本检测模型,尤其是针对那些模拟人类写作风格的AI生成文本。研究人员可以利用该数据分析AI生成文本中常见的错误模式,从而改进检测算法。此外,该数据集还可用于:

开发针对AI生成文本的纠错工具。 研究人类写作和机器写作之间的差异。 改进AI写作模型的鲁棒性,使其生成的文本更符合人类写作规范。 教育目的,帮助学生了解常见的写作错误,提高写作水平。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.62 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。