大型语言模型生成文本检测数据集-Llama70B与Falcon180B对抗文本数据集-nbroad

大型语言模型生成文本检测数据集-Llama70B与Falcon180B对抗文本数据集-nbroad

数据来源:互联网公开数据

标签:人工智能,自然语言处理,文本生成,机器学习,模型评估,语言模型,Llama 70B, Falcon 180B,文本检测,DAIGT,对抗样本

数据概述: 本数据集旨在用于训练和评估检测由大型语言模型(LLM)生成的文本的算法。数据主要来源于Llama 70B和Falcon 180B两种模型生成的文本,并结合了GPT-4生成的文本作为补充。数据集包含不同版本的生成文本,涵盖了多种提示词和生成参数。

数据版本说明: * 版本1:从Llama 70B-chat和Falcon 180B-chat模型生成,每个模型针对所有PERSUADE提示词生成1000个样本,并包含GPT-4生成的一些额外样本。 * 版本2:对Llama 70B生成的文本进行了清洗,删除了一些样本中的冗余文本,生成了llama70b_v2.csv文件,数据内容与版本1相同,但经过了优化。 * 版本3:针对RDizzl3_seven中所有提示词,使用Llama 70B和Falcon 180B生成了额外的样本。每个模型针对每个提示词生成了500个样本(Llama 70B共生成3500个样本,Falcon 180B共生成3500个样本)。与早期版本不同的是,这些样本的提示词中包含了来源信息。

提示词: 数据集使用了一系列提示词,这些提示词主要来源于PERSUADE语料库和GPT-4。

PERSUADE提示词: * “当今大多数人每天都拥有和使用手机。以文章形式,解释司机在驾驶车辆时是否应该或不应该以任何方式使用手机。” * “写一篇解释性文章,告知市民限制汽车使用的好处。你的文章必须基于可以在文章集中找到的想法和信息。请仔细管理你的时间,以便阅读文章;计划你的回应;写下你的回应;并修改和编辑你的回应。务必使用来自多个来源的证据;避免过度依赖一个来源。你的回应应以多段文章的形式呈现。在提供的空间中写下你的文章。” * “一些学校要求学生完成暑期项目,以确保他们在假期期间继续学习。这些暑期项目应该是教师设计的还是学生设计的?在这个问题上表明立场。用理由和具体例子支持你的回应。” * “你刚刚读了文章《骑着海浪的牛仔》。卢克参加Seagoing Cowboys项目使他能够体验冒险并参观许多独特的地方。使用文章中的信息,从卢克的角度写一篇论证文章,说服其他人参加Seagoing Cowboys项目。务必包括:加入该项目的理由;文章中的细节以支持卢克的说法;文章的介绍、主体和结论。” * “你的校长已经决定所有学生必须参加至少一项课外活动。例如,学生可以参加体育运动、参与年鉴或在学生会任职。你是否同意这项决定?使用具体的细节和例子来说服其他人支持你的立场。” * “在《探索金星的挑战》一文中,作者认为研究金星是一项值得追求的事业,尽管它存在危险。使用文章中的细节,写一篇评估作者如何支持这一观点的文章。务必包括:一个评估作者如何支持研究金星是一项值得追求的事业,尽管存在危险的声明;对文章中支持你声明的证据的解释;文章的介绍、主体和结论。” * “在文章《让蒙娜丽莎微笑》中,作者描述了一种名为面部动作编码系统的新技术如何使计算机能够识别人类情感。使用文章中的细节,写一篇论证文章,论证使用这项技术来阅读教室里学生的情感表达是否有价值。” * “你读了文章《揭开火星上的面纱》。想象一下,你是一名NASA的科学家,正在与一个认为它是由外星人创造的人讨论这张脸。使用文章中的信息,写一篇论证文章,说服某人这张脸只是一个自然地貌。务必包括:支持你的论点(即这张脸是一个自然地貌)的声明;文章中支持你声明的证据;一篇论证文章的介绍、主体和结论。” * “你的一些朋友参加社区服务。例如,一些人辅导小学生,另一些人清理垃圾。他们认为帮助社区非常重要。但你的一些其他朋友认为社区服务占用了他们需要或想要做的事情的太多时间。\n你的校长正在决定是否要求所有学生参加社区服务。\n写一封信给你的校长,你在信中表明你对是否应该要求学生参加社区服务的立场。用例子支持你的立场。” * “你的校长正在考虑更改学校政策,以便学生只有达到至少B的平均成绩才能参加体育或其他活动。许多学生的平均成绩为C。\n她想听听学生对这项可能政策变更的看法。写一封信给你的校长,论证要求至少B的平均成绩才能参加体育或其他活动的赞成或反对意见。务必用具体理由支持你的论点。” * “在文章《无人驾驶汽车来了》中,作者介绍了无人驾驶汽车的积极和消极方面。使用文章中的细节,创建支持或反对开发这些汽车的论点。务必包括:你对无人驾驶汽车的立场;文章中支持你立场的适当细节;一篇论证文章的介绍、主体和结论。” * “写一封信给你的州参议员,你在信中论证支持保留选举团制度或改为通过美国总统的普选。在你的文章中使用文本中的信息。请仔细管理你的时间,以便阅读文章;计划你的回应;写下你的回应;并修改和编辑你的回应。务必包括一个声明;解决反驳论点;使用来自多个来源的证据;避免过度依赖一个来源。你的回应应以多段文章的形式呈现。在提供的空间中写下你的文章。” * “你的校长正在重新考虑学校的手机政策。她正在考虑两种可能的政策:\n政策1:允许学生带手机到学校并在午餐时间和其他空闲时间使用它们,只要在课堂上关闭手机即可。\n政策2:根本不允许学生在学校拥有手机。\n写一封信给你的校长,说服她你认为哪种政策更好。用具体理由支持你的立场。” * “一些学校提供远程学习,作为学生通过在线或视频会议从家中参加课程的一个选项。你认为学生从能够在家上课中受益吗?在这个问题上表明立场。用理由和例子支持你的回应。” * “当人们征求建议时,他们有时会与不止一个人交谈。解释为什么寻求多种意见可以帮助某人做出更好的选择。在你的回应中使用具体的细节和例子。”

GPT-4提示词: * “由于其对环境的影响,一次性塑料制品的使用已成为一个有争议的话题。写一篇论证文章,论证支持或反对禁止一次性塑料制品,并提供理由和例子来支持你的立场。” * “许多学校已经实施了着装规范,以创造积极的学习环境。你认为着装规范对学校环境是有益还是有害?表明立场并提供具体的理由和例子来支持你的观点。” * “有些人认为家庭作业是学习的重要组成部分,而另一些人则认为它给学生带来了不必要的压力。写一篇关于这个问题的立场文章,使用具体的理由和例子来支持你的论点。” * “在科学研究中使用动物一直是伦理辩论的主题。论证支持或反对在科学研究中使用动物,并提供理由和例子来证明你的立场。” * “随着社交媒体的兴起,在线分享的个人信息数量有所增加。写一篇论证文章,论证需要加强对社交媒体的隐私保护。” * “一些学校已经实施了允许家长在线监控孩子的成绩和出勤率的政策。论证支持或反对这种做法,并提供理由和例子来支持你的立场。” * “许多人认为艺术教育对于全面的教育至关重要,而另一些人则认为它应该是可选的。在这个问题上表明立场,并提供具体的理由和例子来支持你的论点。” * “近年来,大麻的合法化一直是一个有争议的话题。写一篇论证文章,论证支持或反对大麻的合法化,并提供理由和例子来支持你的立场。” * “关于电子游戏对行为的影响,一直存在争论。论证支持或反对电子游戏可能导致暴力行为的观点,并提供理由和例子来支持你的立场。” * “近年来,气候变化问题变得越来越重要。写一篇论证文章,论证支持或反对政府应立即采取行动应对气候变化的观点,并提供理由和例子来支持你的立场。” * “动物园在保护和教育方面的作用一直是争论的话题。论证支持或反对继续运营动物园,并提供理由和例子来证明你的立场。” * “一些学校已经将冥想和正念练习纳入了学校生活。写一篇论证文章,论证支持或反对在学校中包含这些练习,并提供理由和例子来支持你的立场。” * “最低工资是许多国家中一个有争议的问题。论证支持或反对提高你所在国家的最低工资,并提供具体的理由和例子来支持你的立场。” * “在学校中使用标准化测试多年来一直是一个争论的话题。写一篇关于标准化测试是否是衡量学生能力的准确指标的文章,使用具体的理由和例子来支持你的论点。” * “近年来,一直有推动使用可再生能源的趋势。论证支持或反对从化石燃料向可再生能源的过渡,并提供理由和例子来支持你的立场。” * “有些人认为学生应该有权给他们的老师打分。写一篇论证文章,论证支持或反对学生对教师的评估,并提供具体的理由和例子来支持你的立场。” * “社交媒体对社会的影响一直是持续辩论的话题。论证支持或反对社交媒体对社会规范和价值观有重大影响的观点,并提供理由和例子来支持你的立场。” * “由于环境和健康问题,越来越多的人主张减少肉类消费。写一篇论证文章,论证支持或反对采用素食或纯素饮食,并提供理由和例子来证明你的立场。” * “枪支管制问题是许多国家中一个极具争议的问题。论证支持或反对更严格的枪支管制法律,并提供具体的理由和例子来支持你的立场。” * “图书馆在数字时代的作用一直是讨论的话题。写一篇论证文章,论证支持或反对图书馆的持续重要性,并提供理由和例子来支持你的立场。”

数据用途概述: 该数据集可用于以下方面: * 开发和评估检测LLM生成文本的算法。 * 研究不同LLM的文本生成特性。 * 比较不同文本检测模型的性能。 * 用于教育和研究目的,例如演示LLM的局限性。 * 进行对抗性攻击研究,以了解文本检测模型的脆弱性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.66 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。