数据集概述
该数据集包含约三十万条文本条目,来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容,其余模型文本为对人类文本的逐段改写或直接适配,覆盖不同生成式模型的文本特征。
文件详解
- Human.zip:压缩文件,包含六万条人类撰写的文本数据,源自2019年前Reddit用户生成内容
- ChatGPT.zip:压缩文件,包含六万条由ChatGPT(gpt3.5-turbo)对人类文本逐段改写的文本数据
- PaLM.zip:压缩文件,包含六万条由PaLM(text-bison-001)对人类文本逐段改写的文本数据
- LLaMA.zip:压缩文件,包含六万条由LLaMA-7B对人类文本逐段改写的文本数据
- GPT2.zip:压缩文件,包含六万条改编自OpenAI发布的GPT2-XL输出数据集的文本数据
- ZeroGPT-baseline-response.zip:压缩文件,具体内容未提供预览
- OpenAI-baseline-response.zip:压缩文件,具体内容未提供预览
适用场景
- 大语言模型文本检测研究:可用于训练或测试区分人类与AI生成文本的检测模型
- 生成式模型文本特征分析:对比不同大语言模型生成文本的风格、语义一致性等差异
- 自然语言处理基准测试:作为评估文本生成、文本相似度计算等任务模型性能的基准数据集
- AI文本改写质量评估:分析不同模型对人类文本逐段改写的准确性与自然度