数据集

用于音频字幕生成的2021发布版Clotho音频标注数据集

数据来源：互联网公开数据

数据概述：由芬兰坦佩雷大学（Tampere University）开发并维护，音频内容来源于 Freesound 平台（https://freesound.org），相关数据与标注遵循 Freesound 授权协议和 Tampere University 发布的非商业用途协议。

数据内容： Clotho 是一个用于音频标注任务（Audio Captioning）的公开数据集，涵盖日常环境声音、自然声音、合成音效等。每个音频片段配有 5 条语言描述，描述语言为英语。

总样本数： 6,974 个音频样本

音频长度：每段时长 15 至 30 秒

文本标注数：每个音频对应 5 条描述，数据集中共计 34,870 条语句

描述长度：每条文本为 8 至 20 个单词

标注特点：无命名实体、无语音转录、各数据分割之间词汇无交叉（无 hapax legomena）

数据版本变更：

v2.1 更新内容：

修复了约 150 个在传输和压缩过程中损坏的音频文件

替换了约 10 个在文件系统中非法的字符（如冒号）

v2 更新内容：

将开发集从原来的 2,893 条扩充到 3,840 条，新增 947 条音频

新增验证集，包含 1,046 条音频

保持评估集不变

新增描述遵循 v1 数据一致性规范

字段定义（基于CSV文件）：

clotho_captions_*.csv：

file_name：音频文件名称

caption_1 至 caption_5：5 条对应的音频描述

clotho_metadata_*.csv：

file_name：音频文件名称

keywords：关键词（Freesound标签）

url：原始音频链接

start_sample / end_sample：采样起止点

uploader：上传用户（Freesound用户名）

license：Freesound 版权链接

数据格式：

音频格式：.wav，采样率通常为 44.1kHz

文本和元数据格式：CSV

数据分割：development、validation、evaluation

时间范围：数据本身不包含时间戳，音频采集和整理发生在 2019 至 2021 年之间。

更新频率：当前为版本 2.1，为修复版发布，建议优先使用该版本。

使用方式：

下载开发、验证、评估音频压缩文件（.7z格式）

下载对应的描述（captions）与元数据（metadata）CSV文件

解压后可将音频与文本/元信息对应使用

授权许可：

音频内容：遵循 Freesound 许可（多为 Creative Commons BY）

文本描述与元数据： Tampere University 非商业用途授权（需署名）

适用场景：

音频标注与自动音频描述模型训练

多模态学习（音频+文本）研究

声音事件识别与理解

长文本语义映射与生成任务

音频检索与推荐系统建模

标签：音频标注, 声音识别, 语义描述, 多模态学习, Freesound, 英文文本生成, 听觉AI, 音频数据集, 自动标注, 非结构化数据

数据与资源

用于音频字幕生成的2021发布版Clotho音频标注数据集.zipZIP
0.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.6 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

用于音频字幕生成的2021发布版Clotho音频标注数据集

数据与资源

附加信息

注册成功！