SFT多轮中文对话文本数据集

SFT多轮对话文本数据集。由来自中国的644名不同ID的采集人独家贡献，每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。

数据组成包含97184轮中文自然对话句子，涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样，也可以单独抽取相关领域的数据进行领域SFT。

数据与资源

字段	值
数据集大小	2.37 MiB
最后更新	2024年11月10日
创建于	2024年11月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。