用于音频字幕生成的2021发布版Clotho音频标注数据集
数据来源:互联网公开数据
数据概述:
由芬兰坦佩雷大学(Tampere University)开发并维护,音频内容来源于 Freesound 平台(https://freesound.org),相关数据与标注遵循 Freesound 授权协议和 Tampere University 发布的非商业用途协议。
数据内容:
Clotho 是一个用于音频标注任务(Audio Captioning)的公开数据集,涵盖日常环境声音、自然声音、合成音效等。每个音频片段配有 5 条语言描述,描述语言为英语。
总样本数: 6,974 个音频样本
音频长度: 每段时长 15 至 30 秒
文本标注数: 每个音频对应 5 条描述,数据集中共计 34,870 条语句
描述长度: 每条文本为 8 至 20 个单词
标注特点: 无命名实体、无语音转录、各数据分割之间词汇无交叉(无 hapax legomena)
数据版本变更:
v2.1 更新内容:
修复了约 150 个在传输和压缩过程中损坏的音频文件
替换了约 10 个在文件系统中非法的字符(如冒号)
v2 更新内容:
将开发集从原来的 2,893 条扩充到 3,840 条,新增 947 条音频
新增验证集,包含 1,046 条音频
保持评估集不变
新增描述遵循 v1 数据一致性规范
字段定义(基于CSV文件):
clotho_captions_*.csv:
file_name:音频文件名称
caption_1 至 caption_5:5 条对应的音频描述
clotho_metadata_*.csv:
file_name:音频文件名称
keywords:关键词(Freesound标签)
url:原始音频链接
start_sample / end_sample:采样起止点
uploader:上传用户(Freesound用户名)
license:Freesound 版权链接
数据格式:
音频格式:.wav,采样率通常为 44.1kHz
文本和元数据格式:CSV
数据分割:development、validation、evaluation
时间范围:
数据本身不包含时间戳,音频采集和整理发生在 2019 至 2021 年之间。
更新频率:
当前为版本 2.1,为修复版发布,建议优先使用该版本。
使用方式:
下载开发、验证、评估音频压缩文件(.7z格式)
下载对应的描述(captions)与元数据(metadata)CSV文件
解压后可将音频与文本/元信息对应使用
授权许可:
音频内容: 遵循 Freesound 许可(多为 Creative Commons BY)
文本描述与元数据: Tampere University 非商业用途授权(需署名)
适用场景:
音频标注与自动音频描述模型训练
多模态学习(音频+文本)研究
声音事件识别与理解
长文本语义映射与生成任务
音频检索与推荐系统建模
标签:音频标注, 声音识别, 语义描述, 多模态学习, Freesound, 英文文本生成, 听觉AI, 音频数据集, 自动标注, 非结构化数据