数据集

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集数据来源：互联网公开数据标签：自然语言处理, 文本生成, 模型训练, GPT-4, GPT-3.5, 语言模型, 文本增强, OpenOrca, 子集

数据概述：本数据集是原始OpenOrca数据集的一个子集，OpenOrca数据集是一个由增强的FLAN Collection数据组成的集合。OpenOrca数据集包含约100万个GPT-4生成的补全数据和约320万个GPT-3.5生成的补全数据。本数据集按照ORCA论文中呈现的分布进行表格化，并且是完整数据集的部分补充，正在持续生成以扩大其范围。原始数据集约有400万行数据，本子集包含约20万行数据。

数据用途概述：该数据集主要用于自然语言处理领域的模型训练和评估。它支持包括语言建模、文本生成和文本增强在内的多种任务。该数据集可用于与语言理解、自然语言处理、机器学习模型训练和模型性能评估相关的任务。

数据集结构：数据实例：本数据集中的每个数据实例都代表来自FLAN Collection的条目，这些条目通过将列出的问题提交给GPT-4或GPT-3.5模型进行增强。模型生成的响应随后被记录在数据集中。

特征： 'id'：一个唯一的编号标识符，包含'niv'、't0'、'cot'或'flan'之一，用于表示'question'来自哪个源FLAN Collection子混合。 'system_prompt'：代表呈现给GPT-3.5或GPT-4 API的用于数据点的系统提示。 'question'：代表由FLAN Collection提供的问题条目。 'response'：对该问题从GPT-3.5或GPT-4收到的响应。

子抽样方法：该子集保留了OpenOrca中17个独特的'system_prompt'值的原始分布。我们采用了分层随机抽样方法，从每个提示风格类别中选择了5%（0.05比例）的数据点。这确保了子集保留了不同'system_prompt'值的相对表示，同时减少了数据集的整体大小，以便进行重点分析。

数据与资源

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集.zipZIP
217.26 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	217.26 MiB
最后更新	2025年5月31日
创建于	2025年5月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集

数据与资源

附加信息

注册成功！