聊天机器人-虚拟助手客户服务意图识别评估数据集-英语-bitext
数据来源:互联网公开数据
标签:聊天机器人,虚拟助手,自然语言理解,意图识别,客户服务,评估,数据集,英语,文本数据
数据概述:
本数据集是一个评估数据集,包含来自Bitext预构建的客户服务领域的“更改订单”意图的示例语句。该数据集源于Bitext的预构建客户服务领域(该领域涵盖了Bitext 20个预构建领域中常见的意图)。该数据集可用于评估意图识别模型和自然语言理解(NLU)平台。
数据集包含10,000条语句,这些语句是从超过1,000,000条语句的更大数据集中提取的,其中包括语言风格的变化,例如礼貌用语、口语、脏话、间接表达方式等。为了选择这些语句,我们使用分层抽样来生成一个具有一般用户语言风格特征的数据集。
该数据集还反映了现实生活中的聊天机器人中常见的语言现象,例如:
拼写错误
连写词
缺少标点符号
数据集内容:
数据集中的每个条目都包含一个示例语句以及其对应的意图、类别和附加的语言信息。每行包含以下四个字段:
flags:适用的语言标志
utterance:一个示例用户语句
category:高级意图类别
intent:对应于用户语句的意图
语言标志:
该数据集包含对语言现象的注释,可用于使机器人训练适应不同的用户语言特征。这些标志包括:
B - 基本句法结构
L - 词汇变化(同义词)
M - 词形变化(复数、时态等)
C - 复杂/协调的句法结构
E - 扩展的缩写(I'm -> I am,I'd -> I would等)
I - 疑问句结构
K - 仅关键字
P - 礼貌用语变化
Q - 口语变化
W - 冒犯性语言
Z - 噪声(拼写、标点符号等)
这些现象使训练数据集更有效,并使机器人更准确、更健壮。
类别和意图:
数据集涵盖的意图类别包括:
ORDER(订单)
数据集涵盖的意图包括:
change_order(更改订单)
数据用途概述:
该数据集可用于评估和测试聊天机器人和虚拟助手的意图识别能力。研究人员和开发者可以使用该数据集来训练和评估他们的NLU模型,从而提高客户服务机器人的准确性和鲁棒性。此外,该数据集还可以用于研究不同语言特征对意图识别的影响,以及优化机器人对各种用户语言风格的适应性。