数据集概述
本数据集为ICASSP 2024相关论文的配套数据,包含对LibriTTS数据集train-clean-100分区中三千六百二十六条 utterances(来自十八位说话人)的众包语音重音标注。标注由二百九十八位符合条件的MTurk标注者完成,通过过滤机制排除机器人标注,最终数据以JSON格式存储,包含标注者信息、单词级重音分数及时间对齐信息。
文件详解
- 文件名称:libritts-emphasis-annotations.json
- 文件格式:JSON
- 字段映射介绍:
- 顶层键:匿名化标注者ID
- 标注者属性:country(标注者国家)、language(标注者语言)
- 标注内容(annotations数组):
- score:单词级重音分数数组(对应words数组顺序)
- stem:LibriTTS数据集文件stem
- words:单词列表,每个元素包含、、
数据来源
ICASSP 2024论文"Crowdsourced and Automatic Speech Prominence Estimation"
适用场景
- 语音重音自动识别模型训练: 用于训练机器学习模型实现单词级语音重音的自动标注。
- 重音控制文本转语音(TTS)研究: 为emphasis-controlled TTS系统提供标注数据支持。
- 情感识别任务优化: 结合语音重音信息提升情感识别模型的准确性。
- 文本摘要辅助分析: 利用语音重音特征优化文本摘要的关键信息提取逻辑。
- 众包标注质量评估研究: 分析语音重音标注中的标注者一致性及机器人过滤机制效果。