DatabricksDolly-15k指令数据集

DatabricksDolly-15k指令数据集 数据来源:互联网公开数据 标签:大型语言模型,指令微调,自然语言处理,数据集,开源,问答,文本生成,数据增强,Databricks 数据概述: Databricks Dolly-15k 是一个开源指令数据集,包含超过15,000条记录,由Databricks员工创建。该数据集旨在帮助训练大型语言模型(LLM)展现类似ChatGPT的交互能力。数据集涵盖了多种行为类别,包括头脑风暴、分类、封闭式问答、开放式问答、信息提取、文本摘要和创意写作。数据集中的每个记录都包含一个提示(prompt)和相应的回复(response),用于训练模型。

数据用途概述: 该数据集主要用于训练大型语言模型,特别是用于指令微调。通过使用Dolly-15k,研究人员和开发者可以训练LLM更好地理解和执行各种指令。此外,该数据集也适用于合成数据生成和数据增强,可以用于扩展训练数据,提高模型的泛化能力。Dolly-15k 可以被用于学术研究和商业应用,为自然语言处理领域提供了宝贵的资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 8.89 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。