NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集

数据集概述

本数据集为加泰罗尼亚语的自然语言理解(NLU)数据集,包含近1.2万条标注指令,涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图,标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。

文件详解

  • 主数据集文件
  • 文件名称:NLUCat_dataset.json
  • 文件格式:JSON
  • 字段映射介绍:包含example(示例文本)、annotation(标注信息);annotation下含intent(意图标签)、slots(槽位列表);slots含Tag(槽位类型)、Text(槽位文本)、Start_char(起始字符位置)、End_char(结束字符位置)
  • 标注指南
  • 文件名称:NLUCat_annotation_guidelines.docx
  • 文件格式:DOCX
  • 内容介绍:提供给标注团队的标注规范文档
  • 统计文件
  • 文件名称:NLUCat_stats.tsv
  • 文件格式:TSV
  • 内容介绍:数据集相关统计信息
  • HuggingFace发布版本文件夹
  • 文件夹名称:dataset
  • 内容介绍:拆分后的训练与评估用数据集文件
  • 标注反馈报告文件夹
  • 文件夹名称:reports
  • 内容介绍:标注过程中给标注员的反馈报告

数据来源

Barcelona Supercomputing Center(BSC)Language Technologies Unit

适用场景

  • 低资源语言NLU模型训练: 用于加泰罗尼亚语虚拟助手的意图分类与槽位识别模型开发
  • 弱势群体需求适配研究: 针对医疗、行政等特殊需求场景的NLU模型优化
  • 多语言NLU系统对比: 作为加泰罗尼亚语样本参与跨语言NLU系统性能评估
  • 社会文化适配性分析: 研究NLU数据中地理文化元素对模型效果的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.09 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。