数据集概述
本数据集是DCASE 2024挑战赛Task 9(语言查询音频源分离)的验证集,包含1000个来自Freesound的音频文件及对应元数据,支持模型开发阶段的性能评估。音频已处理为10秒16kHz片段,每个文件配3条人工标注字幕,标签参考FSD50K规范,可用于生成无重叠类别的合成混合音频。
文件详解
- lass_validation.zip
- 文件格式:ZIP
- 内容介绍:包含1000个10秒16kHz的音频文件,均来自Freesound平台2023年4-10月上传资源
- lass_validation.json
- 文件格式:JSON
- 内容介绍:音频文件对应的元数据,包含每条音频的人工标注字幕(3条/音频)、经FSD50K规范验证修订的标签信息
- lass_synthetic_validation.csv
- 文件格式:CSV
- 字段映射:包含source(源音频ID)、noise(噪声音频ID)、snr(信噪比,范围-15dB至15dB)、caption(源音频对应的查询字幕)四个字段,用于生成3000条合成混合音频
数据来源
DCASE 2024 Challenge Task 9官方发布
适用场景
- 语言查询音频源分离模型验证: 用于评估模型在给定文本查询条件下分离目标音频源的性能
- 音频合成混合数据生成: 基于CSV文件生成带可控信噪比的合成混合音频,支持模型鲁棒性测试
- 音频字幕标注质量分析: 分析人工标注字幕与音频内容的匹配度,优化标注规范
- 音频标签体系对齐研究: 基于FSD50K规范的标签修订结果,研究跨数据集标签体系的一致性