性别识别语音数据集-2011-mexwell

性别识别语音数据集-2011-mexwell 数据来源:互联网公开数据 标签:性别识别,语音数据,声学分析,机器学习,音频处理,教育,科研

数据概述: 本数据集用于通过语音和言语分析性别。数据集包含数千个男性和女性的语音样本,每个样本均标注为男性或女性。语音样本来自以下资源:

  • 哈佛-哈斯金斯定期语音数据库
  • 麦吉尔大学电信与信号处理实验室语音数据库
  • VoxForge语音语料库
  • 卡内基梅隆大学Festvox CMU_ARCTIC语音数据库

每个语音样本以.WAV文件存储,并使用WarbleR R包中的specan函数进行预处理。specan函数测量了提供起始和结束时间的声学信号的22个声学参数。

预处理后的.WAV文件输出存储为CSV文件,包含3168行和21列(20个特征列和1个标签列用于分类男性或女性)。用户可通过上述链接下载预处理后的CSV格式数据集。

声学属性测量

以下是测量的每个语音的声学属性:

  • duration:信号长度
  • meanfreq:平均频率(kHz)
  • sd:频率标准差
  • median:中位频率(kHz)
  • Q25:第一四分位数(kHz)
  • Q75:第三四分位数(kHz)
  • IQR:四分位距(kHz)
  • skew:偏度(参见specprop描述中的注释)
  • kurt:峰度(参见specprop描述中的注释)
  • sp.ent:频谱熵
  • sfm:频谱平坦度
  • mode:众数频率
  • centroid:频率质心(参见specprop)
  • peakf:峰值频率(能量最高的频率)
  • meanfun:声学信号中基频平均值
  • minfun:声学信号中基频最小值
  • maxfun:声学信号中基频最大值
  • meandom:声学信号中主导频率平均值
  • mindom:声学信号中主导频率最小值
  • maxdom:声学信号中主导频率最大值
  • dfrange:声学信号中主导频率范围
  • modindx:调制指数。计算为相邻基频测量值的累积绝对差除以频率范围

注意,特征duration和peakf(峰值频率)未用于训练。duration指录音长度,对于训练,被截断为20秒。由于计算此值的时间和CPU限制,peakf被省略。在这种情况下,所有记录的duration值(20秒)和peakf值(0)相同。

原始数据

致谢

图片来自Jason Rosewell在Unsplash上的作品

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 18:55 (UTC)
创建于 四月 23, 2025, 18:55 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。