数据集概述
本数据集包含从Coursera平台收集的两千门课程、一万两千零三十二个视频讲稿生成的词嵌入和文档主题分布向量。通过Python的Gensim包实现Word2Vec和LDA技术,分别生成不同维度的词嵌入及主题向量,为MOOC内容的文本分析提供基础数据。
文件详解
该数据集由两个目录下的CSV文件组成,具体说明如下:
- Word Embeddings/ 目录(词嵌入文件):
- MOOC_50d.csv:CSV格式,包含五十维的词嵌入向量,字段为词汇及对应五十个维度的数值
- MOOC_100d.csv:CSV格式,包含一百维的词嵌入向量
- MOOC_200d.csv:CSV格式,包含两百维的词嵌入向量
- MOOC_300d.csv:CSV格式,包含三百维的词嵌入向量
- Topic Vectors/ 目录(主题向量文件):
- General_Level_Categories.csv:CSV格式,可能包含课程的通用级别分类主题向量
- Fine_grained_Categories.csv:CSV格式,可能包含课程的细粒度分类主题向量
- DT50.csv:CSV格式,可能为五十维的文档主题向量
- DT100.csv:CSV格式,可能为一百维的文档主题向量
- DT200.csv:CSV格式,可能为两百维的文档主题向量
- DT300.csv:CSV格式,可能为三百维的文档主题向量
数据来源
Coursera learning platform
适用场景
- 在线教育内容分析:挖掘MOOC课程的主题分布与内容特征
- 自然语言处理研究:用于词嵌入、主题模型相关算法的验证与应用
- 教育推荐系统开发:基于课程主题向量构建个性化推荐模型
- 知识图谱构建:利用词嵌入向量关联MOOC中的概念与知识点
- 学习内容检索优化:通过主题向量提升课程资源的检索准确性