MOOC课程视频讲稿嵌入与主题向量数据集

数据集概述

本数据集包含从Coursera平台收集的两千门课程、一万两千零三十二个视频讲稿生成的词嵌入和文档主题分布向量。通过Python的Gensim包实现Word2Vec和LDA技术,分别生成不同维度的词嵌入及主题向量,为MOOC内容的文本分析提供基础数据。

文件详解

该数据集由两个目录下的CSV文件组成,具体说明如下: - Word Embeddings/ 目录(词嵌入文件): - MOOC_50d.csv:CSV格式,包含五十维的词嵌入向量,字段为词汇及对应五十个维度的数值 - MOOC_100d.csv:CSV格式,包含一百维的词嵌入向量 - MOOC_200d.csv:CSV格式,包含两百维的词嵌入向量 - MOOC_300d.csv:CSV格式,包含三百维的词嵌入向量 - Topic Vectors/ 目录(主题向量文件): - General_Level_Categories.csv:CSV格式,可能包含课程的通用级别分类主题向量 - Fine_grained_Categories.csv:CSV格式,可能包含课程的细粒度分类主题向量 - DT50.csv:CSV格式,可能为五十维的文档主题向量 - DT100.csv:CSV格式,可能为一百维的文档主题向量 - DT200.csv:CSV格式,可能为两百维的文档主题向量 - DT300.csv:CSV格式,可能为三百维的文档主题向量

数据来源

Coursera learning platform

适用场景

  • 在线教育内容分析:挖掘MOOC课程的主题分布与内容特征
  • 自然语言处理研究:用于词嵌入、主题模型相关算法的验证与应用
  • 教育推荐系统开发:基于课程主题向量构建个性化推荐模型
  • 知识图谱构建:利用词嵌入向量关联MOOC中的概念与知识点
  • 学习内容检索优化:通过主题向量提升课程资源的检索准确性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 215.84 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。