DCASE2024_Task9_Based_语言查询音频源分离验证集数据

数据集概述

本数据集是DCASE 2024挑战赛Task 9(语言查询音频源分离)的验证集,包含1000个来自Freesound的音频文件及对应元数据,支持模型开发阶段的性能评估。音频已处理为10秒16kHz片段,每个文件配3条人工标注字幕,标签参考FSD50K规范,可用于生成无重叠类别的合成混合音频。

文件详解

  • lass_validation.zip
  • 文件格式:ZIP
  • 内容介绍:包含1000个10秒16kHz的音频文件,均来自Freesound平台2023年4-10月上传资源
  • lass_validation.json
  • 文件格式:JSON
  • 内容介绍:音频文件对应的元数据,包含每条音频的人工标注字幕(3条/音频)、经FSD50K规范验证修订的标签信息
  • lass_synthetic_validation.csv
  • 文件格式:CSV
  • 字段映射:包含source(源音频ID)、noise(噪声音频ID)、snr(信噪比,范围-15dB至15dB)、caption(源音频对应的查询字幕)四个字段,用于生成3000条合成混合音频

数据来源

DCASE 2024 Challenge Task 9官方发布

适用场景

  • 语言查询音频源分离模型验证: 用于评估模型在给定文本查询条件下分离目标音频源的性能
  • 音频合成混合数据生成: 基于CSV文件生成带可控信噪比的合成混合音频,支持模型鲁棒性测试
  • 音频字幕标注质量分析: 分析人工标注字幕与音频内容的匹配度,优化标注规范
  • 音频标签体系对齐研究: 基于FSD50K规范的标签修订结果,研究跨数据集标签体系的一致性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 246.17 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。