数据集概述
本数据集为FSD-MIX-CLIPS,是基于FSD-MIX-SED生成的1秒音频剪辑数据集,用于小样本持续学习下的多标签音频分类任务。数据集通过Scaper工具生成,包含614,533条1秒剪辑的标注信息,标注指定了其在FSD-MIX-SED中的源文件名及起始时间。源素材来自FSD50K的89个单标签声音事件类,采用分层分类结构,支持基础类与新类的划分。
文件详解
- FSD_MIX_SED.source.tar.gz
- 文件格式:GZ压缩包
- 内容介绍:包含背景布朗噪声及10,296条来自FSD50K的单标签声音事件(WAV格式),原始大小1.9GB
- FSD_MIX_SED.annotations.tar.gz
- 文件格式:GZ压缩包
- 内容介绍:包含281,039个JAMS格式的声音场景标注文件,原始大小35GB
- FSD_MIX_CLIPS.annotations.tar.gz
- 文件格式:GZ压缩包
- 内容介绍:包含FSD-MIX-CLIPS中1秒剪辑的标注信息,指定每条剪辑在FSD-MIX-SED中的源文件名及起始时间
- vocab.json
- 文件格式:JSON
- 内容介绍:包含89个声音事件类的列表,每个类通过索引进行标注
数据来源
论文“Who calls the shots? Rethinking Few-shot Learning for Audio”
适用场景
- 小样本持续学习研究:用于多标签音频分类任务中的小样本持续学习算法验证与优化
- 声音事件分类模型训练:基于89个声音事件类的标注数据,训练音频分类模型
- 音频事件检测研究:利用1秒剪辑的时间标注信息,开展声音事件检测相关研究
- 数据增强方法探索:通过Scaper工具重现FSD-MIX-SED,研究音频数据增强技术在分类任务中的应用
- 分层分类结构分析:基于FSD50K的200个层级化声音事件类,分析分类体系对模型性能的影响