NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集

本数据集为加泰罗尼亚语的自然语言理解（NLU）数据集，包含近1.2万条标注指令，涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图，标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。

主数据集文件
文件名称：NLUCat_dataset.json
文件格式：JSON
字段映射介绍：包含example（示例文本）、annotation（标注信息）；annotation下含intent（意图标签）、slots（槽位列表）；slots含Tag（槽位类型）、Text（槽位文本）、Start_char（起始字符位置）、End_char（结束字符位置）
标注指南
文件名称：NLUCat_annotation_guidelines.docx
文件格式：DOCX
内容介绍：提供给标注团队的标注规范文档
统计文件
文件名称：NLUCat_stats.tsv
文件格式：TSV
内容介绍：数据集相关统计信息
HuggingFace发布版本文件夹
文件夹名称：dataset
内容介绍：拆分后的训练与评估用数据集文件
标注反馈报告文件夹
文件夹名称：reports
内容介绍：标注过程中给标注员的反馈报告

Barcelona Supercomputing Center（BSC）Language Technologies Unit

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	2.09 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。