大型语言模型生成文本检测竞赛用文集-2023年-phanisrikanth
数据来源:互联网公开数据
标签:LLM,文本生成,人工智能检测,竞赛数据,英特尔,神经网络,生成文本,论文集
数据概述:
本数据集包含3500篇由大型语言模型(LLM)生成的论文,这些论文是为“Detect AI Generated Text Competition”竞赛准备的。数据集使用了英特尔的neural-chat-7b-v3-1模型,该模型在2023年11月27日时是HuggingFace开放LLM排行榜上7B参数模型的第1名。数据集涵盖了多个讨论主题,每个主题包含由模型生成的论文以及相应的提示信息。
数据用途概述:
该数据集适用于AI生成文本检测技术的研究与开发、竞赛准备、文本分析与对比、以及教育训练等场景。研究人员和开发人员可以利用此数据集来训练和评估AI生成文本检测模型,竞赛参与者可以将其作为训练和测试数据,教育者则可以用作教学资源,帮助学生理解AI生成文本的特点和检测方法。
数据集包含以下字段:
prompt_id - 每个提示的唯一标识符
prompt_name - 每个提示的名称
text - 由LLM生成的论文内容
generated - 表示文本是否由AI生成的布尔值(1表示AI生成,0表示非AI生成)
数据集中的提示主题包括:
- 无车城市
- 面部动作编码系统
- 选举人团制度是否有效
- 骑着波浪的牛仔
- 探索金星
- 火星上的面相
- 自动驾驶汽车
这些论文和提示信息为研究人员和竞赛参与者提供了丰富的数据资源,有助于提高AI生成文本检测的准确性和鲁棒性。