Kurzgesagt无聊的开端YouTube视频字幕文本数据集
数据来源:互联网公开数据
标签:Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理
数据概述:
本数据集包含Kurzgesagt - In a Nutshell(无聊的开端)YouTube频道发布的视频的字幕文本。数据来源于对该频道视频的转录,并经过了句子层面的分割。数据集旨在为自然语言处理、文本分析、话题建模等研究提供基础。
数据包含两类数据:
- 视频级别数据:包含每个视频的标题(Title)、视频链接(URL)和完整的字幕文本(Text)。
- 句子级别数据:包含每个句子的标题(Title)、视频链接(URL)和独立的句子文本(Sentence)。
数据提取过程使用了Python编程语言,并依赖于nltk、whisper、pandas和pytube等库。具体步骤包括:从YouTube频道获取视频链接和标题;使用whisper模型转录视频音频;将转录文本进行句子分割。
数据用途概述:
该数据集可用于多种研究和应用场景,例如:
- 话题建模:分析Kurzgesagt视频中涉及的主要话题。
- 情感分析:研究视频字幕文本中的情感倾向。
- 文本摘要:生成视频内容的摘要。
- 机器翻译:将视频字幕翻译成其他语言。
- 教育研究:分析Kurzgesagt视频在科学知识传播方面的特点。
- 自然语言处理教学:作为自然语言处理项目的实践数据集。