自由发音数字音频数据集

自由发音数字音频数据集 数据来源:互联网公开数据 标签:语音识别,音频,数字,语音,机器学习,数据集,FSDD,开源

数据概述: 自由发音数字数据集(FSDD)是一个简单、开放的音频数据集,包含以8kHz采样率录制的英语数字语音wav文件。数据集中的录音经过剪辑,以最大限度地减少开头和结尾的静音。

数据集当前版本包括: 6位说话者 3000个录音(每位说话者每个数字50个录音) 英语发音 录音文件命名格式为:{数字标签}{说话者姓名}{索引}.wav。例如:7_jackson_32.wav。

数据用途概述: 该数据集适用于语音识别、语音合成、声学模型训练等多种应用场景。研究人员可以利用该数据集进行数字语音识别算法的开发和测试;机器学习工程师可以将其用于构建和评估音频分类模型;教育工作者可以利用该数据集进行语音处理相关的教学和实验。数据集的开放性和易用性使其成为一个理想的入门级语音数据集。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 15.58 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。