小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集
数据来源:互联网公开数据
标签:自然语言处理, 文本生成, 模型训练, GPT-4, GPT-3.5, 语言模型, 文本增强, OpenOrca, 子集
数据概述:
本数据集是原始OpenOrca数据集的一个子集,OpenOrca数据集是一个由增强的FLAN Collection数据组成的集合。OpenOrca数据集包含约100万个GPT-4生成的补全数据和约320万个GPT-3.5生成的补全数据。本数据集按照ORCA论文中呈现的分布进行表格化,并且是完整数据集的部分补充,正在持续生成以扩大其范围。原始数据集约有400万行数据,本子集包含约20万行数据。
数据用途概述:
该数据集主要用于自然语言处理领域的模型训练和评估。它支持包括语言建模、文本生成和文本增强在内的多种任务。该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。
数据集结构:
数据实例:本数据集中的每个数据实例都代表来自FLAN Collection的条目,这些条目通过将列出的问题提交给GPT-4或GPT-3.5模型进行增强。模型生成的响应随后被记录在数据集中。
特征:
'id':一个唯一的编号标识符,包含'niv'、't0'、'cot'或'flan'之一,用于表示'question'来自哪个源FLAN Collection子混合。
'system_prompt':代表呈现给GPT-3.5或GPT-4 API的用于数据点的系统提示。
'question':代表由FLAN Collection提供的问题条目。
'response':对该问题从GPT-3.5或GPT-4收到的响应。
子抽样方法:
该子集保留了OpenOrca中17个独特的'system_prompt'值的原始分布。我们采用了分层随机抽样方法,从每个提示风格类别中选择了5%(0.05比例)的数据点。这确保了子集保留了不同'system_prompt'值的相对表示,同时减少了数据集的整体大小,以便进行重点分析。