Multi_CAST_Based_多语言口语文本标注语料库_Mandarin_Version2311

数据集概述

本数据集为Multi-CAST多语言口语标注文本语料库的中文部分,由Maria Vollmer于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供,是研究中文口语标注文本的基础语料资源。

文件详解

  • 文件名称:Multi-CAST/mcmandarin-v2311.zip
  • 文件格式:ZIP(压缩包)
  • 字段映射介绍:数据集以单一压缩包形式存储,未提供具体文件内容预览,推测包含中文口语文本的标注数据,具体字段需解压后查看原始文件结构。

数据来源

Vollmer, Maria. 2023. Multi-CAST Mandarin. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2311. Bamberg: University of Bamberg.

适用场景

  • 多语言语料库研究: 用于分析中文口语文本在多语言语料库中的标注体系与语言特征。
  • 中文口语语言学分析: 基于标注文本研究中文口语的语法、词汇及语用规律。
  • 自然语言处理模型训练: 为中文口语相关的NLP任务(如语音识别、语义理解)提供标注语料支持。
  • 跨语言口语对比研究: 结合Multi-CAST语料库的其他语言数据,开展跨语言口语特征对比分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 403.91 MiB
最后更新 2026年1月17日
创建于 2026年1月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。