自由发音数字音频数据集

自由发音数字音频数据集数据来源：互联网公开数据标签：语音识别,音频,数字,语音,机器学习,数据集,FSDD,开源

数据概述：自由发音数字数据集（FSDD）是一个简单、开放的音频数据集，包含以8kHz采样率录制的英语数字语音wav文件。数据集中的录音经过剪辑，以最大限度地减少开头和结尾的静音。

数据集当前版本包括： 6位说话者 3000个录音（每位说话者每个数字50个录音）英语发音录音文件命名格式为：{数字标签}{说话者姓名}{索引}.wav。例如：7_jackson_32.wav。

数据用途概述：该数据集适用于语音识别、语音合成、声学模型训练等多种应用场景。研究人员可以利用该数据集进行数字语音识别算法的开发和测试；机器学习工程师可以将其用于构建和评估音频分类模型；教育工作者可以利用该数据集进行语音处理相关的教学和实验。数据集的开放性和易用性使其成为一个理想的入门级语音数据集。

数据与资源

字段	值
版本	1.0
数据集大小	15.58 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。