Kurzgesagt无聊的开端YouTube视频字幕文本数据集

Kurzgesagt无聊的开端YouTube视频字幕文本数据集

数据来源:互联网公开数据

标签:Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理

数据概述: 本数据集包含Kurzgesagt - In a Nutshell(无聊的开端)YouTube频道发布的视频的字幕文本。数据来源于对该频道视频的转录,并经过了句子层面的分割。数据集旨在为自然语言处理、文本分析、话题建模等研究提供基础。

数据包含两类数据:

  1. 视频级别数据:包含每个视频的标题(Title)、视频链接(URL)和完整的字幕文本(Text)。
  2. 句子级别数据:包含每个句子的标题(Title)、视频链接(URL)和独立的句子文本(Sentence)。

数据提取过程使用了Python编程语言,并依赖于nltk、whisper、pandas和pytube等库。具体步骤包括:从YouTube频道获取视频链接和标题;使用whisper模型转录视频音频;将转录文本进行句子分割。

数据用途概述: 该数据集可用于多种研究和应用场景,例如:

  • 话题建模:分析Kurzgesagt视频中涉及的主要话题。
  • 情感分析:研究视频字幕文本中的情感倾向。
  • 文本摘要:生成视频内容的摘要。
  • 机器翻译:将视频字幕翻译成其他语言。
  • 教育研究:分析Kurzgesagt视频在科学知识传播方面的特点。
  • 自然语言处理教学:作为自然语言处理项目的实践数据集。
packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.12 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。