Common_Voice_11_0_Spoken_NER_Dataset

数据集概述

本数据集是基于Common Voice 11.0构建的口语命名实体识别(Spoken NER)数据集,包含荷兰语、英语和德语三种语言的口语命名实体识别数据,共3个JSON格式文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集。

文件详解

  • 荷兰语口语命名实体识别数据文件
  • 文件名称:cv_nl_dataset.json
  • 文件格式:JSON
  • 字段映射介绍:未提供具体字段信息,推测包含荷兰语口语文本及对应的命名实体标注数据
  • 英语口语命名实体识别数据文件
  • 文件名称:cv_en_dataset.json
  • 文件格式:JSON
  • 字段映射介绍:未提供具体字段信息,推测包含英语口语文本及对应的命名实体标注数据
  • 德语口语命名实体识别数据文件
  • 文件名称:cv_de_dataset.json
  • 文件格式:JSON
  • 字段映射介绍:未提供具体字段信息,推测包含德语口语文本及对应的命名实体标注数据

数据来源

Common Voice 11.0

适用场景

  • 口语命名实体识别模型训练: 用于训练和优化多语言口语命名实体识别算法
  • 语音处理研究: 支持口语数据的命名实体识别任务研究
  • 多语言NLP模型开发: 为多语言自然语言处理模型提供口语命名实体识别训练数据
  • 语音数据标注应用: 作为口语命名实体识别标注任务的参考数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 884.31 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。