数据集

Multi_CAST_Based_Multi_CAST_Teop多语言医疗CT标注语音文本数据集_V1905

数据集概述

本数据集为Multi-CAST多语言标注语音文本语料库的一部分，聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布，版本为1905，包含1个压缩文件，无训练测试或数据标签拆分，核心语义关键词为医疗CT，是研究多语言医疗语音文本标注的基础语料。

文件详解

压缩文件
文件名称：Multi-CAST/mcteop-v1905.zip
文件格式：ZIP
字段映射介绍：数据集唯一文件为压缩包，包含Multi-CAST Teop子语料库的内容，具体字段需解压后查看，无公开预览信息；核心语义关联医疗CT领域的语音文本标注。

数据来源

University of Bamberg（班贝格大学），引用格式为：Mosel, Ulrike & Schnell, Stefan. 2019. Multi-CAST Teop. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 1905. Bamberg: University of Bamberg.

适用场景

多语言医疗语音文本分析: 研究医疗CT领域多语言语音文本的标注规则与语义特征。
医疗语料库构建: 作为医疗CT相关语音文本语料的补充资源，支持专业领域语料库扩展。
语音标注技术研究: 分析Multi-CAST框架下医疗文本的标注方法与标准化流程。
多语言医疗NLP应用: 为医疗领域多语言自然语言处理模型提供训练或测试语料支持。

数据与资源

14860106.zipZIP
393.80 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	393.8 MiB
最后更新	2025年12月29日
创建于	2025年12月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。