Zenodo_DCASE2024Task7_Based_文本提示环境声音合成完整数据集

数据集概述

本数据集包含三百一十组音频片段与对应文本提示,音频时长均为四秒。所有内容经人工精心设计,支持环境声音场景合成任务的生成模型开发与评估。数据分为开发集与评估集,结构清晰,可实现对生成模型的可控量化评估。

文件详解

数据集以压缩包形式提供,解压后包含以下目录结构: - 开发集目录(dev/): - audio/:存放开发集的WAV格式音频文件 - caption.csv:提供开发集音频对应的文本提示 - 评估集目录(eval/): - audio/:存放评估集的WAV格式音频文件 - caption.csv:提供评估集音频对应的文本提示

数据来源

Zenodo

适用场景

  • 环境声音合成模型的训练与性能评估
  • 文本到音频生成算法的研究与优化
  • 可控音频生成任务的基准测试
  • 声音场景合成质量的量化分析
  • 音频-文本跨模态学习的研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 140.0 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。