DCASE_2024_Task_9_Based_语言查询音频源分离开发集数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

DCASE_2024_Task_9_Based_语言查询音频源分离开发集数据

数据集概述

本数据集是DCASE 2024 Task 9的开发集，由FSD50K和Clotho v2数据集的音频样本组成。FSD50K含51k+音频片段，通过AudioSet Ontology的200个类别手动标注；Clotho v2为音频描述数据集。针对FSD50K的每个音频片段，使用ChatGPT（GPT-4）根据其声音事件标签生成自动描述文本，音频需转换为单声道16kHz格式用于训练LASS模型。

文件详解

文件名称：fsd50k_dev_auto_caption.json
文件格式：JSON
字段映射介绍：包含FSD50K开发集音频片段的自动生成描述文本，对应音频片段的声音事件标签生成的单句描述。
文件名称：fsd50k_eval_auto_caption.json
文件格式：JSON
字段映射介绍：包含FSD50K评估集音频片段的自动生成描述文本，对应音频片段的声音事件标签生成的单句描述。

数据来源

FSD50K数据集（https://zenodo.org/records/4060432）、Clotho v2数据集（https://zenodo.org/records/4783391）

适用场景

音频源分离模型训练：用于训练语言查询的音频源分离（LASS）模型，支持根据文本描述分离音频中的目标声源。
音频描述生成研究：分析自动生成的音频描述文本质量，优化基于声音事件标签的描述生成算法。
音频事件理解：结合音频片段与自动描述，研究声音事件的文本表征与音频特征的关联。
多模态数据融合：用于音频-文本多模态任务的模型开发与评估，如音频检索、文本到音频生成等。

数据与资源

10887496.zipZIP
5.61 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	5.61 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？