ALV_Based_人工生成讲座视频片段与真实标注数据集

数据集概述

本数据集包含300个人工生成的讲座视频转录文本及其对应的片段化真实标注,用于评估讲座视频片段化技术。转录文本源自VideoLectures.NET的1498个学术讲座转录文件,涵盖计算机科学、数学、医学等多领域。每个讲座由20个时长4-8分钟的片段拼接而成,总时长约600小时。

文件详解

  • 压缩包内容:
  • 解压后包含两个子文件夹:ALV_srt(300个文件)、ALV_srt_GT(300个文件)
  • ALV_srt文件夹:
  • 文件格式:SRT(字幕文件)
  • 字段内容:序号、时间戳(开始→结束)、字幕文本、空行分隔
  • ALV_srt_GT文件夹:
  • 文件格式:制表符分隔文本
  • 字段内容:3列20行,包含Fragment_ID(片段ID)、StartTime(开始时间)、EndTime(结束时间)

数据来源

论文“Temporal Lecture Video Fragmentation using Word Embeddings”

适用场景

  • 视频片段化技术评估:验证和比较不同讲座视频片段边界检测算法的准确性
  • 多媒体内容分析:研究学术视频的结构特征与语义分段规律
  • 教育技术研究:分析讲座内容的最佳片段时长与学习效果的关系
  • 自然语言处理应用:基于转录文本的语义分段模型训练与测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 14.61 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。