YouTube视频声音识别与分类数据集-VGG-Sound

YouTube视频声音识别与分类数据集-VGG-Sound 数据来源:互联网公开数据 标签:音频,视频,声音,YouTube,机器学习,计算机视觉,音频分类,声学,多模态,数据集 数据概述: VGG-Sound是一个音频-视觉对应数据集,由YouTube上载视频中提取的短音频片段组成。该数据集包含310多个类别,超过20万个视频,总时长超过550小时。VGG-Sound涵盖了大量具有挑战性的声学环境和真实应用中的噪声特征。所有视频都是“在野外”捕获的,具有音频-视觉对应关系,即声音来源在视觉上是显而易见的。数据集包含音频和视频数据。每个片段的时长为10秒。

数据集中提供一个CSV文件。对于每个YouTube视频,都包含YouTube URL、时间戳、音频标签和训练/测试划分信息。CSV文件的每一行包含以下列:

YouTube ID, 开始秒数, 标签, 训练/测试划分。 数据用途概述: 该数据集适用于音频分类、声音事件检测、多模态学习(音频和视频的结合)、以及计算机视觉和机器学习等领域的研究。研究人员可以使用此数据集训练和评估音频识别模型,探索声音与视觉信息之间的关系,或者开发用于现实世界环境的音频分析系统。此外,该数据集也适用于教育和研究,用于演示和实践音频处理、机器学习等相关技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.21 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。