数据集概述
本数据集是基于Common Voice 11.0构建的口语命名实体识别(Spoken NER)数据集,包含荷兰语、英语和德语三种语言的口语命名实体识别数据,共3个JSON格式文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集。
文件详解
- 荷兰语口语命名实体识别数据文件
- 文件名称:cv_nl_dataset.json
- 文件格式:JSON
- 字段映射介绍:未提供具体字段信息,推测包含荷兰语口语文本及对应的命名实体标注数据
- 英语口语命名实体识别数据文件
- 文件名称:cv_en_dataset.json
- 文件格式:JSON
- 字段映射介绍:未提供具体字段信息,推测包含英语口语文本及对应的命名实体标注数据
- 德语口语命名实体识别数据文件
- 文件名称:cv_de_dataset.json
- 文件格式:JSON
- 字段映射介绍:未提供具体字段信息,推测包含德语口语文本及对应的命名实体标注数据
数据来源
Common Voice 11.0
适用场景
- 口语命名实体识别模型训练: 用于训练和优化多语言口语命名实体识别算法
- 语音处理研究: 支持口语数据的命名实体识别任务研究
- 多语言NLP模型开发: 为多语言自然语言处理模型提供口语命名实体识别训练数据
- 语音数据标注应用: 作为口语命名实体识别标注任务的参考数据集