数据集

FSD_MIX_Created_声音事件混合音频剪辑标注数据_2021

数据集概述

本数据集为FSD-MIX-CLIPS，是基于FSD-MIX-SED生成的1秒音频剪辑数据集，用于小样本持续学习下的多标签音频分类任务。数据集通过Scaper工具生成，包含614,533条1秒剪辑的标注信息，标注指定了其在FSD-MIX-SED中的源文件名及起始时间。源素材来自FSD50K的89个单标签声音事件类，采用分层分类结构，支持基础类与新类的划分。

文件详解

FSD_MIX_SED.source.tar.gz
文件格式：GZ压缩包
内容介绍：包含背景布朗噪声及10,296条来自FSD50K的单标签声音事件（WAV格式），原始大小1.9GB
FSD_MIX_SED.annotations.tar.gz
文件格式：GZ压缩包
内容介绍：包含281,039个JAMS格式的声音场景标注文件，原始大小35GB
FSD_MIX_CLIPS.annotations.tar.gz
文件格式：GZ压缩包
内容介绍：包含FSD-MIX-CLIPS中1秒剪辑的标注信息，指定每条剪辑在FSD-MIX-SED中的源文件名及起始时间
vocab.json
文件格式：JSON
内容介绍：包含89个声音事件类的列表，每个类通过索引进行标注

数据来源

论文“Who calls the shots? Rethinking Few-shot Learning for Audio”

适用场景

小样本持续学习研究：用于多标签音频分类任务中的小样本持续学习算法验证与优化
声音事件分类模型训练：基于89个声音事件类的标注数据，训练音频分类模型
音频事件检测研究：利用1秒剪辑的时间标注信息，开展声音事件检测相关研究
数据增强方法探索：通过Scaper工具重现FSD-MIX-SED，研究音频数据增强技术在分类任务中的应用
分层分类结构分析：基于FSD50K的200个层级化声音事件类，分析分类体系对模型性能的影响

数据与资源

5574135.zipZIP
996.02 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	996.02 MiB
最后更新	2026年1月23日
创建于	2026年1月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。