哈佛大学CS50x2024课程字幕与元数据集-devjonathanbr

哈佛大学CS50x2024课程字幕与元数据集-devjonathanbr 数据来源:互联网公开数据 标签:CS50x,计算机科学,课程,教育,字幕,元数据,哈佛大学

数据概述: 本数据集包含哈佛大学2024年CS50x课程的详细元数据和字幕文件。CS50x是一门广受好评的计算机科学入门课程,由哈佛大学提供。数据集分为两个主要部分:课程元数据和讲座元数据,以及完整的讲座字幕文件。

数据集结构: courses.csv - 课程元数据 - id:课程的唯一标识符 - name:课程名称 - author:提供课程的机构或个人 - tag:相关标签(例如:编程, 计算机科学) - description:课程的简要描述 - playlist_link:包含完整课程视频的播放列表链接

lectures.csv - 讲座元数据 - id:讲座的唯一标识符 - course_id:链接讲座到其课程的标识符 - title:讲座标题 - youtube_link:YouTube上的讲座视频链接 - transcription_file:字幕文件的路径,格式为.txt - duration:讲座时长,格式为HH:MM:SS

transcriptions/ - 完整的讲座字幕文件 每个讲座的字幕文件以单独的.txt文件存储在transcriptions/文件夹下。文件按课程组织,使用小写名称并用下划线代替空格(例如:cs50x_2024)。文件名格式为lecture.txt,其中对应于讲座ID。 示例文件结构: transcriptions/ └── cs50x_2024/ ├── lecture1.txt 对应"Lecture 0 - Scratch"的字幕

数据用途概述: 该数据集适用于课程分析、教育研究、字幕翻译和课程内容提取等多种场景。教育者可以利用该数据集进行课程内容分析和课程开发;研究人员可以使用这些数据进行教学效果评估;字幕翻译团队可以利用字幕文件进行多语言版本的制作;学习者也可以通过访问课程字幕加深对课程内容的理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.54 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。