Interruption_Based_手动标注会议打断音频转录数据集2024

数据集概述

本数据集改编自加拿大菲沙河谷大学创建的Group Affect and Performance数据集,包含手动标注的重叠话语(分为真实打断和非真实打断)音频文件、结构化标注数据及原始完整会议音频与转录文本。数据源于14组会议,从355个重叠话语实例中筛选出200个真实打断,支持对话打断行为的分析研究。

文件详解

  • 文件名称:LICENSE.txt
  • 文件格式:TXT
  • 字段映射介绍:包含Creative Commons Attribution-NonCommercial 4.0 International许可协议内容
  • 文件名称:data.json
  • 文件格式:JSON
  • 字段映射介绍:记录所有重叠话语实例的标注信息,包括所属组、说话人、话语起始时间及分类(interruption/non-interruption)
  • 文件名称:audio-and-transcripts.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包包含两部分内容,一是按“Group [组号]: [起始时间] - [结束时间].wav”命名的打断音频片段;二是原始完整会议音频与转录文本,用于提供打断上下文

数据来源

加拿大菲沙河谷大学创建的Group Affect and Performance数据集

适用场景

  • 对话打断行为分析: 基于手动标注的真实/非真实打断分类,研究会议场景中打断行为的特征与模式
  • 语音交互模型训练: 利用标注音频数据训练对话系统的打断检测与处理模块
  • 社会语言学研究: 分析会议中打断行为与参与者角色、对话流向的关系
  • 情感计算辅助研究: 结合原始会议转录文本,探究打断行为与群体情绪、表现的关联
  • 对话上下文理解: 通过原始完整会议音频与转录,评估打断行为的语境依赖性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 874.26 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。