航空公司陆行信息系统与个人语音助手意图识别数据集2011-2018-weipengfei

航空公司陆行信息系统与个人语音助手意图识别数据集2011-2018-weipengfei 数据来源:互联网公开数据 标签:ATIS,SNIPS,语音识别,槽位标注,意图识别,自然语言处理,SLU,对话系统

数据概述: 本数据集包含了两个被广泛用于自然语言处理(NLP)中口语理解(SLU)研究的数据集:航空公司陆行信息系统(ATIS)和Snips个人语音助手。ATIS数据集包含4478条训练话语、500条开发话语和893条测试话语,涵盖120种槽位标签和21种意图类型,主要用于航班预定相关的对话。Snips数据集则包含13084条训练话语、700条开发话语和700条测试话语,涵盖72种槽位标签和7种意图类型,样本数量在各意图间大致相同,涉及个人助手相关任务。

数据用途概述: 该数据集适用于语音识别、意图识别、槽位填充等自然语言处理任务的研究和开发。研究人员可以利用ATIS数据集进行航班信息相关对话系统的开发与优化;Snips数据集则适用于开发和测试个人语音助手,支持多样化任务的执行。此外,这两个数据集也适合用于教学和培训,帮助学习者理解语音识别和对话系统的核心概念与实现方法。

举例: 表1 显示了两个数据集中的意图及其相关话语示例: - ATIS数据集:atis_flight(预订航班)、atis_cheapest(查找最便宜的航班) - Snips数据集:GetWeather(查询天气)、BookRestaurant(预订餐厅)

表2 比较了两个数据集的关键特征: - 意图多样性:Snips数据集包含更多样化的意图类型,词汇量更大;ATIS数据集的意图类型相对单一,主要集中在航班信息上。 - 样本平衡性:ATIS数据集中的某些意图(如atis_flight)样本数量远超其他意图,存在严重的不平衡问题;Snips数据集则在各意图间实现了较好的样本数量平衡。 - 槽位标签:ATIS数据集拥有更多的槽位标签,这有助于更精细地解析对话内容;Snips数据集的槽位标签数量相对较少,但已涵盖大多数实际应用场景所需。

这两个数据集为自然语言处理研究提供了丰富且实用的资源,适用于多种研究场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.01 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。