数据集概述
本数据集改编自加拿大菲沙河谷大学创建的Group Affect and Performance数据集,包含手动标注的重叠话语(分为真实打断和非真实打断)音频文件、结构化标注数据及原始完整会议音频与转录文本。数据源于14组会议,从355个重叠话语实例中筛选出200个真实打断,支持对话打断行为的分析研究。
文件详解
- 文件名称:LICENSE.txt
- 文件格式:TXT
- 字段映射介绍:包含Creative Commons Attribution-NonCommercial 4.0 International许可协议内容
- 文件名称:data.json
- 文件格式:JSON
- 字段映射介绍:记录所有重叠话语实例的标注信息,包括所属组、说话人、话语起始时间及分类(interruption/non-interruption)
- 文件名称:audio-and-transcripts.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包包含两部分内容,一是按“Group [组号]: [起始时间] - [结束时间].wav”命名的打断音频片段;二是原始完整会议音频与转录文本,用于提供打断上下文
数据来源
加拿大菲沙河谷大学创建的Group Affect and Performance数据集
适用场景
- 对话打断行为分析: 基于手动标注的真实/非真实打断分类,研究会议场景中打断行为的特征与模式
- 语音交互模型训练: 利用标注音频数据训练对话系统的打断检测与处理模块
- 社会语言学研究: 分析会议中打断行为与参与者角色、对话流向的关系
- 情感计算辅助研究: 结合原始会议转录文本,探究打断行为与群体情绪、表现的关联
- 对话上下文理解: 通过原始完整会议音频与转录,评估打断行为的语境依赖性