Kurzgesagt无聊的开端YouTube视频字幕文本数据集

数据来源：互联网公开数据

标签：Kurzgesagt, YouTube, 字幕, 文本, 科学, 动画, 教育, 知识传播, 视频分析, 自然语言处理

数据概述：本数据集包含Kurzgesagt - In a Nutshell（无聊的开端）YouTube频道发布的视频的字幕文本。数据来源于对该频道视频的转录，并经过了句子层面的分割。数据集旨在为自然语言处理、文本分析、话题建模等研究提供基础。

数据包含两类数据：

数据提取过程使用了Python编程语言，并依赖于nltk、whisper、pandas和pytube等库。具体步骤包括：从YouTube频道获取视频链接和标题；使用whisper模型转录视频音频；将转录文本进行句子分割。

数据用途概述：该数据集可用于多种研究和应用场景，例如：

数据与资源

字段	值
版本	1.0
数据集大小	1.12 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。