性别识别语音数据集-2011-mexwell
数据来源:互联网公开数据
标签:性别识别,语音数据,声学分析,机器学习,音频处理,教育,科研
数据概述:
本数据集用于通过语音和言语分析性别。数据集包含数千个男性和女性的语音样本,每个样本均标注为男性或女性。语音样本来自以下资源:
- 哈佛-哈斯金斯定期语音数据库
- 麦吉尔大学电信与信号处理实验室语音数据库
- VoxForge语音语料库
- 卡内基梅隆大学Festvox CMU_ARCTIC语音数据库
每个语音样本以.WAV文件存储,并使用WarbleR R包中的specan函数进行预处理。specan函数测量了提供起始和结束时间的声学信号的22个声学参数。
预处理后的.WAV文件输出存储为CSV文件,包含3168行和21列(20个特征列和1个标签列用于分类男性或女性)。用户可通过上述链接下载预处理后的CSV格式数据集。
声学属性测量
以下是测量的每个语音的声学属性:
- duration:信号长度
- meanfreq:平均频率(kHz)
- sd:频率标准差
- median:中位频率(kHz)
- Q25:第一四分位数(kHz)
- Q75:第三四分位数(kHz)
- IQR:四分位距(kHz)
- skew:偏度(参见specprop描述中的注释)
- kurt:峰度(参见specprop描述中的注释)
- sp.ent:频谱熵
- sfm:频谱平坦度
- mode:众数频率
- centroid:频率质心(参见specprop)
- peakf:峰值频率(能量最高的频率)
- meanfun:声学信号中基频平均值
- minfun:声学信号中基频最小值
- maxfun:声学信号中基频最大值
- meandom:声学信号中主导频率平均值
- mindom:声学信号中主导频率最小值
- maxdom:声学信号中主导频率最大值
- dfrange:声学信号中主导频率范围
- modindx:调制指数。计算为相邻基频测量值的累积绝对差除以频率范围
注意,特征duration和peakf(峰值频率)未用于训练。duration指录音长度,对于训练,被截断为20秒。由于计算此值的时间和CPU限制,peakf被省略。在这种情况下,所有记录的duration值(20秒)和peakf值(0)相同。
原始数据
致谢
图片来自Jason Rosewell在Unsplash上的作品