FSD_MIX_Created_声音事件混合音频剪辑标注数据_2021

数据集概述

本数据集为FSD-MIX-CLIPS,是基于FSD-MIX-SED生成的1秒音频剪辑数据集,用于小样本持续学习下的多标签音频分类任务。数据集通过Scaper工具生成,包含614,533条1秒剪辑的标注信息,标注指定了其在FSD-MIX-SED中的源文件名及起始时间。源素材来自FSD50K的89个单标签声音事件类,采用分层分类结构,支持基础类与新类的划分。

文件详解

  • FSD_MIX_SED.source.tar.gz
  • 文件格式:GZ压缩包
  • 内容介绍:包含背景布朗噪声及10,296条来自FSD50K的单标签声音事件(WAV格式),原始大小1.9GB
  • FSD_MIX_SED.annotations.tar.gz
  • 文件格式:GZ压缩包
  • 内容介绍:包含281,039个JAMS格式的声音场景标注文件,原始大小35GB
  • FSD_MIX_CLIPS.annotations.tar.gz
  • 文件格式:GZ压缩包
  • 内容介绍:包含FSD-MIX-CLIPS中1秒剪辑的标注信息,指定每条剪辑在FSD-MIX-SED中的源文件名及起始时间
  • vocab.json
  • 文件格式:JSON
  • 内容介绍:包含89个声音事件类的列表,每个类通过索引进行标注

数据来源

论文“Who calls the shots? Rethinking Few-shot Learning for Audio”

适用场景

  • 小样本持续学习研究:用于多标签音频分类任务中的小样本持续学习算法验证与优化
  • 声音事件分类模型训练:基于89个声音事件类的标注数据,训练音频分类模型
  • 音频事件检测研究:利用1秒剪辑的时间标注信息,开展声音事件检测相关研究
  • 数据增强方法探索:通过Scaper工具重现FSD-MIX-SED,研究音频数据增强技术在分类任务中的应用
  • 分层分类结构分析:基于FSD50K的200个层级化声音事件类,分析分类体系对模型性能的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 996.02 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。