数据集概述
本数据集为Multi-CAST多语言口语标注文本语料库的中文部分,由Maria Vollmer于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供,是研究中文口语标注文本的基础语料资源。
文件详解
- 文件名称:Multi-CAST/mcmandarin-v2311.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:数据集以单一压缩包形式存储,未提供具体文件内容预览,推测包含中文口语文本的标注数据,具体字段需解压后查看原始文件结构。
数据来源
Vollmer, Maria. 2023. Multi-CAST Mandarin. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2311. Bamberg: University of Bamberg.
适用场景
- 多语言语料库研究: 用于分析中文口语文本在多语言语料库中的标注体系与语言特征。
- 中文口语语言学分析: 基于标注文本研究中文口语的语法、词汇及语用规律。
- 自然语言处理模型训练: 为中文口语相关的NLP任务(如语音识别、语义理解)提供标注语料支持。
- 跨语言口语对比研究: 结合Multi-CAST语料库的其他语言数据,开展跨语言口语特征对比分析。