LLM提示恢复竞赛文本改写数据集-70k条-winddude

LLM提示恢复竞赛文本改写数据集-70k条-winddude 数据来源:互联网公开数据 标签:LLM,提示恢复,文本改写,模板,Skylion007,openwebtext,Gemma7b,艺术风格,写作风格,数据集

数据概述: 本数据集为“LLM提示恢复”竞赛而创建,包含约70,000条唯一的提示信息。这些提示是从“Skylion007/openwebtext”语料库中的原始文本基础上,通过Gemma 7B模型改写而成的。数据集中的提示信息是基于以下几种基本模板构建的: 1. "{{ 前缀 }} 将这段 {{ 文本类型 }} 转换为 {{ 写作风格 }}" 2. "{{ 前缀 }} 将这段 {{ 文本类型 }},但使用 {{ 艺术风格 }} 的写作风格" 3. "通过 {{ 艺术风格 }} 的视角传达这段 {{ 文本类型 }} 的相同信息" 4. "根据这段 {{ 文本类型 }} 写一篇 {{ 目标类型 }}" 5. "通过 {{ 艺术风格 }} 的写作风格改进这段 {{ 文本类型 }}" 6. "改进这段 {{ 文本类型 }}" 7. "想象这段文本是一篇 {{ 写作风格 }} 的作品,设置在 {{ 场景 }} 中,并 {{ 前缀 }} 它" 8. "{{ 前缀 }} 这段 {{ 文本类型 }},就像它是 {{ 场景 }} 中的 {{ 艺术风格 }} 写作的" 9. "{{ 前缀 }} 这段 {{ 文本类型 }},并赋予其 {{ 写作风格 }}"

数据集中的所有文本均未经过任何后期处理。

数据用途概述: 该数据集适用于自然语言处理研究、文本生成模型训练、写作风格转换研究以及竞赛数据分析等多种场景。研究人员可以利用此数据集来评估语言模型的提示恢复能力;文本生成领域的专家可以通过数据集改进文本改写和风格转换算法;教育者可以使用这些提示来教授写作风格和文本分析技巧。此外,该数据集还适合用于文本生成模型的评估和比较,为相关领域的学术研究提供宝贵的数据资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 7, 2025, 07:44 (UTC)
创建于 五月 7, 2025, 07:33 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。