数据集

Multi_CAST_Based_多语言口语文本标注语料库_Mandarin_Version2311

数据集概述

本数据集为Multi-CAST多语言口语标注文本语料库的中文部分，由Maria Vollmer于2023年贡献，收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供，是研究中文口语标注文本的基础语料资源。

文件详解

文件名称：Multi-CAST/mcmandarin-v2311.zip
文件格式：ZIP（压缩包）
字段映射介绍：数据集以单一压缩包形式存储，未提供具体文件内容预览，推测包含中文口语文本的标注数据，具体字段需解压后查看原始文件结构。

数据来源

Vollmer, Maria. 2023. Multi-CAST Mandarin. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2311. Bamberg: University of Bamberg.

适用场景

多语言语料库研究: 用于分析中文口语文本在多语言语料库中的标注体系与语言特征。
中文口语语言学分析: 基于标注文本研究中文口语的语法、词汇及语用规律。
自然语言处理模型训练: 为中文口语相关的NLP任务（如语音识别、语义理解）提供标注语料支持。
跨语言口语对比研究: 结合Multi-CAST语料库的其他语言数据，开展跨语言口语特征对比分析。

数据与资源

14859323.zipZIP
403.91 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	403.91 MiB
最后更新	2026年1月17日
创建于	2026年1月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。