航空旅行信息系统的飞行预订对话数据集-2011-renanaferreira

航空旅行信息系统的飞行预订对话数据集-2011-renanaferreira 数据来源:互联网公开数据 标签:航空旅行,自然语言处理,NLU,对话系统,航班预订,意图识别,实体提取,数据集

数据概述: 本数据集包含来自航空旅行信息系统的对话数据,旨在用于自然语言处理和对话系统的训练与研究。数据集分为两种格式:Python pickle格式和Rasa NLU JSON格式。其中,Python pickle格式包含了原始的对话数据及其对应的标签信息;Rasa NLU JSON格式则包含了对话文本、意图识别和实体提取的结果。

数据集分为训练集和测试集两个部分,共计5871个样本(其中训练集4978个样本,测试集893个样本)。数据集中词汇量为943,涉及129个槽位和26个意图。每个样本包含用户查询文本及其对应的标签信息,包括源地城市、目的地城市、出发时间、到达时间等实体信息。

数据用途概述: 该数据集适用于自然语言处理、对话系统设计、意图识别、实体提取等多个研究领域。研究人员可以通过使用该数据集训练与评估对话系统模型,以提高对用户意图的理解和对话交互的质量。此外,该数据集还适合用于教育和培训,帮助学生和研究人员学习如何处理和分析对话文本数据。

示例: 原始格式示例: 0: flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS BOS O i O want O to O fly O from O boston B-fromloc.city_name at O 838 B-depart_time.time am I-depart_time.time and O arrive O in O denver B-toloc.city_name at O 1110 B-arrive_time.time in O the O morning B-arrive_time.period_of_day EOS O

Rasa NLU JSON格式示例: { "rasa_nlu_data": { "common_examples": [ { "text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis", "intent": "flight", "entities": [ { "start": 35, "end": 44, "value": "charlotte", "entity": "fromloc.city_name" }, { "start": 48, "end": 57, "value": "las vegas", "entity": "toloc.city_name" }, { "start": 79, "end": 88, "value": "st. louis", "entity": "stoploc.city_name" } ] }, ... ] } }

数据格式: 训练集文件名:atis.train.pkl(Python 3 Pickle格式) 测试集文件名:atis.test.pkl(Python 3 Pickle格式) 训练集文件名:train.json(Rasa NLU JSON格式) 测试集文件名:test.json(Rasa NLU JSON格式)

说明: 该原始数据集来自于siddhadev提供的ATIS数据集,部分代码也参考了该数据集的实现。原始数据集由微软CNTK示例提供。此外,https://github.com/mesnilgr/is13 也提供了ATIS数据集,但仅包含槽位数据而未包含意图信息。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.55 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。