OpenLLMText_多源文本数据基于大语言模型文本分析完整数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

OpenLLMText_多源文本数据基于大语言模型文本分析完整数据

数据集概述

该数据集包含约三十万条文本条目，来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容，其余模型文本为对人类文本的逐段改写或直接适配，覆盖不同生成式模型的文本特征。

文件详解

Human.zip：压缩文件，包含六万条人类撰写的文本数据，源自2019年前Reddit用户生成内容
ChatGPT.zip：压缩文件，包含六万条由ChatGPT（gpt3.5-turbo）对人类文本逐段改写的文本数据
PaLM.zip：压缩文件，包含六万条由PaLM（text-bison-001）对人类文本逐段改写的文本数据
LLaMA.zip：压缩文件，包含六万条由LLaMA-7B对人类文本逐段改写的文本数据
GPT2.zip：压缩文件，包含六万条改编自OpenAI发布的GPT2-XL输出数据集的文本数据
ZeroGPT-baseline-response.zip：压缩文件，具体内容未提供预览
OpenAI-baseline-response.zip：压缩文件，具体内容未提供预览

适用场景

大语言模型文本检测研究：可用于训练或测试区分人类与AI生成文本的检测模型
生成式模型文本特征分析：对比不同大语言模型生成文本的风格、语义一致性等差异
自然语言处理基准测试：作为评估文本生成、文本相似度计算等任务模型性能的基准数据集
AI文本改写质量评估：分析不同模型对人类文本逐段改写的准确性与自然度

数据与资源

8285326.zipZIP
333.10 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	333.1 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？