Interruption_Based_手动标注会议打断音频转录数据集2024

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Interruption_Based_手动标注会议打断音频转录数据集2024

数据集概述

本数据集改编自加拿大菲沙河谷大学创建的Group Affect and Performance数据集，包含手动标注的重叠话语（分为真实打断和非真实打断）音频文件、结构化标注数据及原始完整会议音频与转录文本。数据源于14组会议，从355个重叠话语实例中筛选出200个真实打断，支持对话打断行为的分析研究。

文件详解

文件名称：LICENSE.txt
文件格式：TXT
字段映射介绍：包含Creative Commons Attribution-NonCommercial 4.0 International许可协议内容
文件名称：data.json
文件格式：JSON
字段映射介绍：记录所有重叠话语实例的标注信息，包括所属组、说话人、话语起始时间及分类（interruption/non-interruption）
文件名称：audio-and-transcripts.zip
文件格式：ZIP
字段映射介绍：压缩包包含两部分内容，一是按“Group [组号]: [起始时间] - [结束时间].wav”命名的打断音频片段；二是原始完整会议音频与转录文本，用于提供打断上下文

数据来源

加拿大菲沙河谷大学创建的Group Affect and Performance数据集

适用场景

对话打断行为分析: 基于手动标注的真实/非真实打断分类，研究会议场景中打断行为的特征与模式
语音交互模型训练: 利用标注音频数据训练对话系统的打断检测与处理模块
社会语言学研究: 分析会议中打断行为与参与者角色、对话流向的关系
情感计算辅助研究: 结合原始会议转录文本，探究打断行为与群体情绪、表现的关联
对话上下文理解: 通过原始完整会议音频与转录，评估打断行为的语境依赖性

数据与资源

8318812.zipZIP
874.26 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	874.26 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？