基于GPT-3的改写文章数据集
数据来源:互联网公开数据
标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译
数据概述:
本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3 API进行了改写,确保改写后的内容保持原意,但改变了部分用词和结构。数据集适用于自然语言处理任务,如文本摘要、机器翻译和数据增强。
数据用途概述:
该数据集适用于研究人员和自然语言处理领域的从业者。它可以作为文本摘要、机器翻译和数据增强任务的数据源,提供多样且高质量的改写文章,帮助提升这些任务的性能和准确性。此外,数据集也适合用于教育培训,帮助学习者理解GPT-3等语言模型在文本改写中的应用。
改写过程说明:
1. 从Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面手动复制文章的标题、摘要和引言部分,并粘贴到Google Sheets中。
2. 使用OpenAI GPT-3 API,编写脚本自动发送API请求进行改写。
3. 使用pandas库,去除新行并将其保存为.csv文件。
4. 仅使用开放获取的文章创建该数据集。
GPT-3改写参数设置(标题改写过程):
prompt:将给定的标题改写为尽可能少使用原标题的单词,同时保留关键要点
model:text-davinci-003
temperature:0.85
max_tokens:根据输入文本长度动态计算
top_p:0.7
frequency_penalty:0
presence_penalty:0.4
best_of:4
GPT-3改写参数设置(摘要和引言改写过程):
prompt:将以下段落改写为尽可能少使用原段落的单词,同时保留科学细节。输出内容应尽可能长于输入内容
model:text-davinci-003
temperature:0.8
max_tokens:根据输入文本长度动态计算
top_p:0.75
frequency_penalty:0
presence_penalty:0.3
best_of:3