数据集

Botpress平台蒙特利尔酒店问答数据集-酒店信息与聊天机器人交互-V1-talatiqbal

数据来源：互联网公开数据

标签：聊天机器人,问答系统,自然语言处理,酒店信息,Botpress,Rasa,Dialogflow,Watson Assistant,数据集,文本数据

数据概述：本数据集是基于知识库的聊天机器人问答数据集，针对蒙特利尔一家虚构的酒店，由人工标注以评估结果的质量。数据集包含了不同聊天机器人引擎（包括Botpress OpenBook、Rasa、Google Dialogflow和IBM Watson Assistant）对各种问题的回答，这些问题均基于一个统一的知识库。

数据集中，四个不同的聊天机器人引擎被用于处理超过5000个独特的问题，并记录了它们的回答。这些回答依据12个参数进行标注，以衡量其质量。标注过程分两轮进行。

数据集文件BP_MHS_V1.csv包含了带标注的数据，包括问题、回答及其对应的标注信息。知识库的事实表可以在此处下载（此处需提供链接）。

字段说明：

qid（字符串）：问题的唯一标识符。 question（字符串）：提供给聊天机器人的问题文本。 related_facts（字符串）：与问题回答相关的知识库中的事实。 answer_in_fact（布尔值）：回答是否在事实中。 engine（字符串）：使用的引擎名称。 engine_response（字符串）：每个引擎提供的回答。 p1（布尔值）：回答包含过多信息（如果适用，为true）。 p2（布尔值）：回答包含不相关的信息（如果适用，为true）。 p3（布尔值）：回答包含虚假信息（如果适用，为true）。 p4（布尔值）：回答不正确（如果适用，为true）。 p5（布尔值）：回答部分正确（如果适用，为true）。 p6（布尔值）：回答完全正确（如果适用，为true）。 p7（布尔值）：引擎本应回答，却表示不知道答案（如果适用，为true）。 p8（布尔值）：引擎表示不理解问题（如果适用，为true）。 p9（布尔值）：引擎正确表示不知道答案（如果适用，为true）。 p10（布尔值）：问题被认为是无效的（如果适用，为true）。 best（布尔值）：针对每个问题的四个引擎的回答中，最佳回答（如果适用，为true）。 worst（布尔值）：针对每个问题的四个引擎的回答中，最差回答（如果适用，为true）。 annotation_round（布尔值）：标注的轮次（值为1或2，表示相应的轮次）。

数据用途概述：该数据集适用于多种研究和应用场景，包括但不限于：

聊天机器人性能评估：用于比较不同聊天机器人引擎在特定知识库和问题集上的表现。自然语言处理研究：为研究和开发更准确、更智能的问答系统提供数据支持。知识库管理：评估知识库的质量和完整性，并改进知识库的构建。模型训练与优化：用于训练和优化基于知识库的问答模型。用户体验分析：分析用户与聊天机器人的交互，从而提升用户体验。

数据与资源

versions_20250401171902.zipZIP
1.39 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.39 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Botpress平台蒙特利尔酒店问答数据集-酒店信息与聊天机器人交互-V1-talatiqbal

数据与资源

附加信息

注册成功！