数据集概述
本数据集为Multi-CAST多语言标注语音文本语料库的一部分,聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布,版本为1905,包含1个压缩文件,无训练测试或数据标签拆分,核心语义关键词为医疗CT,是研究多语言医疗语音文本标注的基础语料。
文件详解
- 压缩文件
- 文件名称:Multi-CAST/mcteop-v1905.zip
- 文件格式:ZIP
- 字段映射介绍:数据集唯一文件为压缩包,包含Multi-CAST Teop子语料库的内容,具体字段需解压后查看,无公开预览信息;核心语义关联医疗CT领域的语音文本标注。
数据来源
University of Bamberg(班贝格大学),引用格式为:Mosel, Ulrike & Schnell, Stefan. 2019. Multi-CAST Teop. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 1905. Bamberg: University of Bamberg.
适用场景
- 多语言医疗语音文本分析: 研究医疗CT领域多语言语音文本的标注规则与语义特征。
- 医疗语料库构建: 作为医疗CT相关语音文本语料的补充资源,支持专业领域语料库扩展。
- 语音标注技术研究: 分析Multi-CAST框架下医疗文本的标注方法与标准化流程。
- 多语言医疗NLP应用: 为医疗领域多语言自然语言处理模型提供训练或测试语料支持。