OpenHermes模型训练数据集通用指令与角色扮演数据集合集-volodymyrpivoshenko

OpenHermes模型训练数据集通用指令与角色扮演数据集合集-volodymyrpivoshenko 数据来源:互联网公开数据 标签:OpenHermes,GPT-4,指令数据集,角色扮演,代码指令,AI,机器学习,NLP,Teknium,WizardLM,Airoboros GPT-4,Camel-AI,CodeAlpaca,GPT4-LLM,Unnatural Instructions

数据概述: 本数据集是用于训练OpenHermes模型的训练数据集合集,主要由GPT-4生成数据构成,包含了242,000条数据。数据集来源于AI领域内的多个公开数据集,经过筛选,移除了OpenAI的拒绝回复、免责声明以及“作为AI”类型的示例。

数据来源包括: * GPTeacher - General Instruct, Roleplay v1, Roleplay v2, and Code Instruct Datasets, by Teknium * WizardLM (v1, evol_instruct 70k), by WizardLM Team/nlpxucan * Airoboros GPT-4 (v1.0), by JonDurbin * Camel-AI's domain expert datasets, by the Camel-AI Team * CodeAlpaca, by Sahil2801 * GPT4-LLM and Unnatural Instructions, by Microsoft

数据集的构成与原始Nous-Hermes数据集基本一致,移除了Nous-Instruct和PDACTL数据集(私有数据集)。

数据用途概述: 该数据集主要用于训练大型语言模型,特别是用于提升模型在通用指令遵循、角色扮演以及代码生成等方面的能力。研究人员和开发者可以利用该数据集进行模型训练、评估和优化,从而构建更强大、更智能的AI应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 196.52 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。