Mixtral8x7B模型生成AI写作检测竞赛模拟论文数据集
数据来源:互联网公开数据
标签:人工智能,LLM,Mixtral,论文生成,写作风格模仿,AI检测,竞赛,文本数据
数据概述:
本数据集旨在用于大型语言模型(LLM)生成的文本检测,特别针对“AI写作检测”竞赛。数据集包含约4000篇由Mixtral 8x7B模型生成的论文。这些论文是基于特定提示生成的,该提示旨在模仿学生的写作风格。为了实现风格模仿,数据集使用了学生论文样本作为参考,要求模型在写作风格、语气、词汇、句子结构、语法、节奏、情感等方面与学生论文高度相似。数据集中包含模型的原始输出(model_Raw_output)、仅包含论文内容的清洗版本(AI_Essay)以及提供写作风格参考的学生ID(student_id)。
数据用途概述:
该数据集主要用于以下几个方面:
1. AI写作检测模型的训练与评估: 可用于训练和评估检测AI生成文本的模型,特别是针对模仿人类写作风格的文本。
2. LLM生成文本的研究: 帮助研究人员了解LLM在模仿不同写作风格方面的能力和局限性。
3. 文本风格迁移研究: 为研究文本风格迁移技术提供数据支持。
4. 竞赛准备: 为参与“AI写作检测”竞赛的团队提供训练和测试数据。
5. 教育与科研: 促进对AI生成文本的理解,推动相关领域的学术研究。