数据集

MOOC课程视频讲稿嵌入与主题向量数据集

数据集概述

本数据集包含从Coursera平台收集的两千门课程、一万两千零三十二个视频讲稿生成的词嵌入和文档主题分布向量。通过Python的Gensim包实现Word2Vec和LDA技术，分别生成不同维度的词嵌入及主题向量，为MOOC内容的文本分析提供基础数据。

文件详解

该数据集由两个目录下的CSV文件组成，具体说明如下： - Word Embeddings/ 目录（词嵌入文件）： - MOOC_50d.csv：CSV格式，包含五十维的词嵌入向量，字段为词汇及对应五十个维度的数值 - MOOC_100d.csv：CSV格式，包含一百维的词嵌入向量 - MOOC_200d.csv：CSV格式，包含两百维的词嵌入向量 - MOOC_300d.csv：CSV格式，包含三百维的词嵌入向量 - Topic Vectors/ 目录（主题向量文件）： - General_Level_Categories.csv：CSV格式，可能包含课程的通用级别分类主题向量 - Fine_grained_Categories.csv：CSV格式，可能包含课程的细粒度分类主题向量 - DT50.csv：CSV格式，可能为五十维的文档主题向量 - DT100.csv：CSV格式，可能为一百维的文档主题向量 - DT200.csv：CSV格式，可能为两百维的文档主题向量 - DT300.csv：CSV格式，可能为三百维的文档主题向量

数据来源

Coursera learning platform

适用场景

在线教育内容分析：挖掘MOOC课程的主题分布与内容特征
自然语言处理研究：用于词嵌入、主题模型相关算法的验证与应用
教育推荐系统开发：基于课程主题向量构建个性化推荐模型
知识图谱构建：利用词嵌入向量关联MOOC中的概念与知识点
学习内容检索优化：通过主题向量提升课程资源的检索准确性

数据与资源

xknjp8pxbj-1.zipZIP
215.84 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	215.84 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。