聊天机器人-虚拟助手客户服务意图识别评估数据集-英语-bitext

聊天机器人-虚拟助手客户服务意图识别评估数据集-英语-bitext 数据来源:互联网公开数据 标签:聊天机器人,虚拟助手,自然语言理解,意图识别,客户服务,评估,数据集,英语,文本数据 数据概述: 本数据集是一个评估数据集,包含来自Bitext预构建的客户服务领域的“更改订单”意图的示例语句。该数据集源于Bitext的预构建客户服务领域(该领域涵盖了Bitext 20个预构建领域中常见的意图)。该数据集可用于评估意图识别模型和自然语言理解(NLU)平台。

数据集包含10,000条语句,这些语句是从超过1,000,000条语句的更大数据集中提取的,其中包括语言风格的变化,例如礼貌用语、口语、脏话、间接表达方式等。为了选择这些语句,我们使用分层抽样来生成一个具有一般用户语言风格特征的数据集。

该数据集还反映了现实生活中的聊天机器人中常见的语言现象,例如:

拼写错误 连写词 缺少标点符号

数据集内容: 数据集中的每个条目都包含一个示例语句以及其对应的意图、类别和附加的语言信息。每行包含以下四个字段:

flags:适用的语言标志 utterance:一个示例用户语句 category:高级意图类别 intent:对应于用户语句的意图

语言标志: 该数据集包含对语言现象的注释,可用于使机器人训练适应不同的用户语言特征。这些标志包括:

B - 基本句法结构 L - 词汇变化(同义词) M - 词形变化(复数、时态等) C - 复杂/协调的句法结构 E - 扩展的缩写(I'm -> I am,I'd -> I would等) I - 疑问句结构 K - 仅关键字 P - 礼貌用语变化 Q - 口语变化 W - 冒犯性语言 Z - 噪声(拼写、标点符号等)

这些现象使训练数据集更有效,并使机器人更准确、更健壮。

类别和意图: 数据集涵盖的意图类别包括:

ORDER(订单) 数据集涵盖的意图包括:

change_order(更改订单) 数据用途概述: 该数据集可用于评估和测试聊天机器人和虚拟助手的意图识别能力。研究人员和开发者可以使用该数据集来训练和评估他们的NLU模型,从而提高客户服务机器人的准确性和鲁棒性。此外,该数据集还可以用于研究不同语言特征对意图识别的影响,以及优化机器人对各种用户语言风格的适应性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 8.08 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。