会议纪要关键信息标注数据集MeetingMinutesKeyInformationAnnotation-okayhj
数据来源:互联网公开数据
标签:会议记录, 关键信息抽取, 文本标注, 自然语言处理, 语义分析, 深度学习, 情感分析, 对话分析
数据概述:
该数据集包含来自会议记录的文本数据,记录了会议中的完整对话内容和关键信息标注。主要特征如下:
时间跨度:数据未明确标明具体时间,但从内容推测为日常会议记录。
地理范围:数据未限制地理范围,可视为通用会议场景。
数据维度:数据集包括以下关键字段:
idx:记录索引。
meeting_key:会议唯一标识符。
topic_segment_id:话题分段标识符。
full_sentence:完整的会议对话文本。
sep_token_position_arr:分隔符位置数组,用于指示文本中的关键分隔符位置。
text_len_position_arr:文本长度位置数组,用于指示文本中各部分的长度信息。
label_arr:关键信息标签数组,用于标注文本中的关键信息。
session_label_arr:会话标签数组,用于标注会话的上下文信息。
数据格式:CSV格式,包括train_v1.csv, valid_v1.csv, test_v1.csv,以及配置文件。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘等领域的学术研究,例如关键信息抽取、情感分析、对话分析、会议记录自动摘要等。
行业应用:为会议记录管理、智能会议助手、知识管理系统等提供数据支持,尤其在提高会议效率、辅助决策方面具备实用价值。
决策支持:支持企业内部的知识管理和协同工作,帮助提升信息检索和共享效率。
教育和培训:可作为自然语言处理、文本标注等相关课程的实训数据,帮助学生和研究人员理解和实践关键信息抽取技术。
此数据集特别适合用于探索会议记录中关键信息的自动识别与提取方法,帮助用户实现会议纪要的自动化处理,提高信息检索效率。