OpenHermes模型训练数据集通用指令与角色扮演数据集合集-volodymyrpivoshenko
数据来源:互联网公开数据
标签:OpenHermes,GPT-4,指令数据集,角色扮演,代码指令,AI,机器学习,NLP,Teknium,WizardLM,Airoboros GPT-4,Camel-AI,CodeAlpaca,GPT4-LLM,Unnatural Instructions
数据概述:
本数据集是用于训练OpenHermes模型的训练数据集合集,主要由GPT-4生成数据构成,包含了242,000条数据。数据集来源于AI领域内的多个公开数据集,经过筛选,移除了OpenAI的拒绝回复、免责声明以及“作为AI”类型的示例。
数据来源包括:
* GPTeacher - General Instruct, Roleplay v1, Roleplay v2, and Code Instruct Datasets, by Teknium
* WizardLM (v1, evol_instruct 70k), by WizardLM Team/nlpxucan
* Airoboros GPT-4 (v1.0), by JonDurbin
* Camel-AI's domain expert datasets, by the Camel-AI Team
* CodeAlpaca, by Sahil2801
* GPT4-LLM and Unnatural Instructions, by Microsoft
数据集的构成与原始Nous-Hermes数据集基本一致,移除了Nous-Instruct和PDACTL数据集(私有数据集)。
数据用途概述:
该数据集主要用于训练大型语言模型,特别是用于提升模型在通用指令遵循、角色扮演以及代码生成等方面的能力。研究人员和开发者可以利用该数据集进行模型训练、评估和优化,从而构建更强大、更智能的AI应用。