数据集概述
本数据集是DCASE 2024 Task 9的开发集,由FSD50K和Clotho v2数据集的音频样本组成。FSD50K含51k+音频片段,通过AudioSet Ontology的200个类别手动标注;Clotho v2为音频描述数据集。针对FSD50K的每个音频片段,使用ChatGPT(GPT-4)根据其声音事件标签生成自动描述文本,音频需转换为单声道16kHz格式用于训练LASS模型。
文件详解
- 文件名称:fsd50k_dev_auto_caption.json
- 文件格式:JSON
- 字段映射介绍:包含FSD50K开发集音频片段的自动生成描述文本,对应音频片段的声音事件标签生成的单句描述。
- 文件名称:fsd50k_eval_auto_caption.json
- 文件格式:JSON
- 字段映射介绍:包含FSD50K评估集音频片段的自动生成描述文本,对应音频片段的声音事件标签生成的单句描述。
数据来源
FSD50K数据集(https://zenodo.org/records/4060432)、Clotho v2数据集(https://zenodo.org/records/4783391)
适用场景
- 音频源分离模型训练:用于训练语言查询的音频源分离(LASS)模型,支持根据文本描述分离音频中的目标声源。
- 音频描述生成研究:分析自动生成的音频描述文本质量,优化基于声音事件标签的描述生成算法。
- 音频事件理解:结合音频片段与自动描述,研究声音事件的文本表征与音频特征的关联。
- 多模态数据融合:用于音频-文本多模态任务的模型开发与评估,如音频检索、文本到音频生成等。