小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集 数据来源:互联网公开数据 标签:自然语言处理, 文本生成, 模型训练, GPT-4, GPT-3.5, 语言模型, 文本增强, OpenOrca, 子集

数据概述: 本数据集是原始OpenOrca数据集的一个子集,OpenOrca数据集是一个由增强的FLAN Collection数据组成的集合。OpenOrca数据集包含约100万个GPT-4生成的补全数据和约320万个GPT-3.5生成的补全数据。本数据集按照ORCA论文中呈现的分布进行表格化,并且是完整数据集的部分补充,正在持续生成以扩大其范围。原始数据集约有400万行数据,本子集包含约20万行数据。

数据用途概述: 该数据集主要用于自然语言处理领域的模型训练和评估。它支持包括语言建模、文本生成和文本增强在内的多种任务。该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。

数据集结构: 数据实例:本数据集中的每个数据实例都代表来自FLAN Collection的条目,这些条目通过将列出的问题提交给GPT-4或GPT-3.5模型进行增强。模型生成的响应随后被记录在数据集中。

特征: 'id':一个唯一的编号标识符,包含'niv'、't0'、'cot'或'flan'之一,用于表示'question'来自哪个源FLAN Collection子混合。 'system_prompt':代表呈现给GPT-3.5或GPT-4 API的用于数据点的系统提示。 'question':代表由FLAN Collection提供的问题条目。 'response':对该问题从GPT-3.5或GPT-4收到的响应。

子抽样方法: 该子集保留了OpenOrca中17个独特的'system_prompt'值的原始分布。我们采用了分层随机抽样方法,从每个提示风格类别中选择了5%(0.05比例)的数据点。这确保了子集保留了不同'system_prompt'值的相对表示,同时减少了数据集的整体大小,以便进行重点分析。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 217.26 MiB
最后更新 2025年5月31日
创建于 2025年5月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。