多轮对话提示数据集

多轮对话提示数据集 数据来源:互联网公开数据
标签:多轮对话,文本数据,自然语言处理,机器学习,对话系统,数据标注,人工智能聊天机器人

数据概述:
本数据集包含400条基于10个类别和19个应用场景的多轮文本对话记录,每条对话最多包含5轮交互。这些对话是通过道德来源的人机协作方法生成的,并经过监督微调、直接偏好优化和基于人类反馈的强化学习对齐。数据集旨在提高AI聊天机器人模型的生成响应质量,增强其记忆能力和识别能力,以提供持续的对话支持。

数据用途概述:
该数据集适用于增强查询辅助模型的功能,涵盖购物、编程、创意写作、旅行协助、营销、引用、学术写作、语言协助、研究主题、专业知识、推理和STEM相关领域。数据集可以用于电商、客户服务、市场营销、教育、建议性用户查询和通用聊天机器人的生成模型预训练。此外,数据集还适用于检索增强的生成模型训练,而不会涉及暴力内容,避免潜在的伤害、冲突、歧视、暴力或误导信息。

举例:
数据集中的对话示例包括用户提出问题或指令,模型给出相应的响应。例如,用户可能询问如何编写一段Python代码来处理数据,模型则提供详细的代码示例和解释。这些对话涵盖了从简单的Q&A到复杂的多轮推理问题,适用于多种应用场景。
数据集结构及字段:
数据集包含以下列:
P1, R1, P2, R2, P3, R3, P4, R4, P5:这些列代表单次对话中的提示(P)和响应(R)序列,每轮对话最多包含5个提示和5个响应。提示是用户输入,响应是模型输出。
Use Case:指定该对话的主要应用场景,例如“问答助手”或“写作助手”。
Type:表示对话的复杂度,本数据集中的条目标记为“复杂”。
Category:广泛分类对话类型,例如“开放式问答”或“写作”。这提供了对话性质的上下文,无论是生成创意内容、提供详细答案还是参与复杂问题解决。
潜在限制与偏见:
这是一个静态数据集,信息截止到2024年5月。
注意:
如果您有任何关于数据标注和人类审查服务的问题,特别是用于大型语言模型的训练和微调,请联系SoftAge Information Technology Limited,邮箱:info@softage.ai。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.05 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。