YouTube视频声音识别与分类数据集-VGG-Sound
数据来源:互联网公开数据
标签:音频,视频,声音,YouTube,机器学习,计算机视觉,音频分类,声学,多模态,数据集
数据概述:
VGG-Sound是一个音频-视觉对应数据集,由YouTube上载视频中提取的短音频片段组成。该数据集包含310多个类别,超过20万个视频,总时长超过550小时。VGG-Sound涵盖了大量具有挑战性的声学环境和真实应用中的噪声特征。所有视频都是“在野外”捕获的,具有音频-视觉对应关系,即声音来源在视觉上是显而易见的。数据集包含音频和视频数据。每个片段的时长为10秒。
数据集中提供一个CSV文件。对于每个YouTube视频,都包含YouTube URL、时间戳、音频标签和训练/测试划分信息。CSV文件的每一行包含以下列:
YouTube ID,
开始秒数,
标签,
训练/测试划分。
数据用途概述:
该数据集适用于音频分类、声音事件检测、多模态学习(音频和视频的结合)、以及计算机视觉和机器学习等领域的研究。研究人员可以使用此数据集训练和评估音频识别模型,探索声音与视觉信息之间的关系,或者开发用于现实世界环境的音频分析系统。此外,该数据集也适用于教育和研究,用于演示和实践音频处理、机器学习等相关技术。