数据集概述
本数据集是从欧洲议会会议录音中提取的多语言测试集,用于语言识别和语音识别任务。包含15个多语言音频文件,总时长约2小时56分34秒,覆盖19种语言,经人工核对语言标签时间戳并补充官方文本转录,可支持多语言语音技术的模型测试与评估。
文件详解
- 文件名称:
tst_is24.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含用于语言识别和语音识别的多语言音频文件及对应标注,标注含人工修正的语言标签时间戳、官方文本转录(若有)等信息,具体内容可参考压缩包内的README.txt。
数据来源
欧洲议会官网(https://www.europarl.europa.eu/plenary/en/debates-video.html)及论文“Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech”
适用场景
- 多语言语音识别模型测试:用于验证模型对欧洲议会多语言录音的语音转写准确率。
- 语言识别算法评估:支持19种语言的实时或离线语言识别算法性能测试。
- 多语言语音数据增强:为语音处理模型提供真实场景下的多语言混合训练数据补充。
- 语音技术研究:探索多语言广播及机构语音自动转录的语言识别策略与方法。