LLM提示恢复竞赛文本改写数据集-70k条-winddude
数据来源:互联网公开数据
标签:LLM,提示恢复,文本改写,模板,Skylion007,openwebtext,Gemma7b,艺术风格,写作风格,数据集
数据概述:
本数据集为“LLM提示恢复”竞赛而创建,包含约70,000条唯一的提示信息。这些提示是从“Skylion007/openwebtext”语料库中的原始文本基础上,通过Gemma 7B模型改写而成的。数据集中的提示信息是基于以下几种基本模板构建的:
1. "{{ 前缀 }} 将这段 {{ 文本类型 }} 转换为 {{ 写作风格 }}"
2. "{{ 前缀 }} 将这段 {{ 文本类型 }},但使用 {{ 艺术风格 }} 的写作风格"
3. "通过 {{ 艺术风格 }} 的视角传达这段 {{ 文本类型 }} 的相同信息"
4. "根据这段 {{ 文本类型 }} 写一篇 {{ 目标类型 }}"
5. "通过 {{ 艺术风格 }} 的写作风格改进这段 {{ 文本类型 }}"
6. "改进这段 {{ 文本类型 }}"
7. "想象这段文本是一篇 {{ 写作风格 }} 的作品,设置在 {{ 场景 }} 中,并 {{ 前缀 }} 它"
8. "{{ 前缀 }} 这段 {{ 文本类型 }},就像它是 {{ 场景 }} 中的 {{ 艺术风格 }} 写作的"
9. "{{ 前缀 }} 这段 {{ 文本类型 }},并赋予其 {{ 写作风格 }}"
数据集中的所有文本均未经过任何后期处理。
数据用途概述:
该数据集适用于自然语言处理研究、文本生成模型训练、写作风格转换研究以及竞赛数据分析等多种场景。研究人员可以利用此数据集来评估语言模型的提示恢复能力;文本生成领域的专家可以通过数据集改进文本改写和风格转换算法;教育者可以使用这些提示来教授写作风格和文本分析技巧。此外,该数据集还适合用于文本生成模型的评估和比较,为相关领域的学术研究提供宝贵的数据资源。