数据集

YouTube视频声音识别与分类数据集-VGG-Sound

YouTube视频声音识别与分类数据集-VGG-Sound 数据来源：互联网公开数据标签：音频,视频,声音,YouTube,机器学习,计算机视觉,音频分类,声学,多模态,数据集数据概述： VGG-Sound是一个音频-视觉对应数据集，由YouTube上载视频中提取的短音频片段组成。该数据集包含310多个类别，超过20万个视频，总时长超过550小时。VGG-Sound涵盖了大量具有挑战性的声学环境和真实应用中的噪声特征。所有视频都是“在野外”捕获的，具有音频-视觉对应关系，即声音来源在视觉上是显而易见的。数据集包含音频和视频数据。每个片段的时长为10秒。

数据集中提供一个CSV文件。对于每个YouTube视频，都包含YouTube URL、时间戳、音频标签和训练/测试划分信息。CSV文件的每一行包含以下列：

YouTube ID, 开始秒数, 标签, 训练/测试划分。数据用途概述：该数据集适用于音频分类、声音事件检测、多模态学习（音频和视频的结合）、以及计算机视觉和机器学习等领域的研究。研究人员可以使用此数据集训练和评估音频识别模型，探索声音与视觉信息之间的关系，或者开发用于现实世界环境的音频分析系统。此外，该数据集也适用于教育和研究，用于演示和实践音频处理、机器学习等相关技术。

数据与资源

YouTube视频声音识别与分类数据集-VGG-Sound.zipZIP
5.21 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.21 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

YouTube视频声音识别与分类数据集-VGG-Sound

数据与资源

附加信息

注册成功！