数据集

基于语言工具的AI生成文本错误分析数据集

基于语言工具的AI生成文本错误分析数据集数据来源：互联网公开数据标签：AI检测,文本分析,语言工具,错误分析,生成文本,写作风格,自然语言处理,教育,评估数据概述：本数据集基于竞赛提供的训练集，利用LanguageTool（一款开源的语法和风格检查工具）对其中的文章进行了全面检查，旨在揭示AI生成文本中常见的错误类型。数据集的核心在于记录了AI生成文本中被手动添加的拼写错误和语法错误，这些错误被设计成更像人类写作的风格。数据集包含两个主要文件：

essay_checks.csv：该文件记录了每篇文章的ID及是否为AI生成文本的标识，以及LanguageTool检测到的具体错误信息。具体字段包括：

essay：文章ID。 generated：布尔值，指示文章是否为AI生成。 ruleId：错误规则ID。 category：错误类别（如语法、拼写等）。 ruleIssueType：错误类型。 replacements：建议的替换方案数量。 error：实际的错误文本。 fix：LanguageTool建议的第一个修复方案。 start：错误在文章中的起始位置索引。 stop：错误在文章中的结束位置索引。

fixes_errors_counts：该文件统计了每个独特错误及其最常见的修复方案，以及该错误出现的次数。

数据用途概述：该数据集可用于开发和评估AI生成文本检测模型，尤其是针对那些模拟人类写作风格的AI生成文本。研究人员可以利用该数据分析AI生成文本中常见的错误模式，从而改进检测算法。此外，该数据集还可用于：

开发针对AI生成文本的纠错工具。研究人类写作和机器写作之间的差异。改进AI写作模型的鲁棒性，使其生成的文本更符合人类写作规范。教育目的，帮助学生了解常见的写作错误，提高写作水平。

数据与资源

基于语言工具的AI生成文本错误分析数据集.zipZIP
0.62 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.62 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

基于语言工具的AI生成文本错误分析数据集

数据与资源

附加信息

注册成功！