基于GPT-3的改写文章数据集

基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3 API进行了改写,确保改写后的内容保持原意,但改变了部分用词和结构。数据集适用于自然语言处理任务,如文本摘要、机器翻译和数据增强。 数据用途概述: 该数据集适用于研究人员和自然语言处理领域的从业者。它可以作为文本摘要、机器翻译和数据增强任务的数据源,提供多样且高质量的改写文章,帮助提升这些任务的性能和准确性。此外,数据集也适合用于教育培训,帮助学习者理解GPT-3等语言模型在文本改写中的应用。 改写过程说明: 1. 从Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面手动复制文章的标题、摘要和引言部分,并粘贴到Google Sheets中。 2. 使用OpenAI GPT-3 API,编写脚本自动发送API请求进行改写。 3. 使用pandas库,去除新行并将其保存为.csv文件。 4. 仅使用开放获取的文章创建该数据集。 GPT-3改写参数设置(标题改写过程): prompt:将给定的标题改写为尽可能少使用原标题的单词,同时保留关键要点 model:text-davinci-003 temperature:0.85 max_tokens:根据输入文本长度动态计算 top_p:0.7 frequency_penalty:0 presence_penalty:0.4 best_of:4 GPT-3改写参数设置(摘要和引言改写过程): prompt:将以下段落改写为尽可能少使用原段落的单词,同时保留科学细节。输出内容应尽可能长于输入内容 model:text-davinci-003 temperature:0.8 max_tokens:根据输入文本长度动态计算 top_p:0.75 frequency_penalty:0 presence_penalty:0.3 best_of:3

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.15 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。