is24_Interspeech2024_欧洲议会录音多语言测试集

本数据集是从欧洲议会会议录音中提取的多语言测试集，用于语言识别和语音识别任务。包含15个多语言音频文件，总时长约2小时56分34秒，覆盖19种语言，经人工核对语言标签时间戳并补充官方文本转录，可支持多语言语音技术的模型测试与评估。

文件名称：tst_is24.zip
文件格式：ZIP
字段映射介绍：压缩包内包含用于语言识别和语音识别的多语言音频文件及对应标注，标注含人工修正的语言标签时间戳、官方文本转录（若有）等信息，具体内容可参考压缩包内的README.txt。

欧洲议会官网（https://www.europarl.europa.eu/plenary/en/debates-video.html）及论文“Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech”

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	511.94 MiB
最后更新	2026年1月27日
创建于	2026年1月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。