数据集

电影推荐系统构建-IMDB与MovieLens融合预处理数据集

电影推荐系统构建-IMDB与MovieLens融合预处理数据集数据来源：互联网公开数据标签：电影推荐,IMDB,MovieLens,推荐系统,数据预处理,矩阵分解,自然语言处理,电影数据,评分数据数据概述：本数据集是为构建电影推荐系统而进行的数据预处理结果。该数据集整合了来自IMDB和MovieLens的数据，包含了约9万部电影的信息以及用户评分数据。数据处理过程中，作者运用了多种技术，包括基于用户评分的矩阵分解，提取演员和导演的特征；使用预训练的BERT模型，对电影剧情进行处理，去除可能影响句子分析的专有名词，仅保留名词。

数据集包含以下几个关键文件：

imdb_data.csv：基于IMDB网站抓取的数据，约91,515部电影。预处理后的字段包括： story：经过BERT处理，去除人名等干扰信息，仅保留名词的电影剧情。 actors：选取电影中主要的四位演员，并转换为小写，以减少数据偏颇。 genre：最多保留3个电影类型。 actors_order：演员在actors_vectors中的索引，与actors的顺序一致。 directors_order：导演在directors_vectors中的索引。 popularity：基于年份投票数的归一化排名值，范围0-1。 actors_vectors.p, directors_vectors.p：基于IMDB数据和评分数据，通过截断奇异值分解（SVD）生成的演员和导演的向量。文件名后缀如“_10, _20”表示每个用户使用的评分数据量。无后缀文件为随机生成的向量。若演员或导演无评分，则使用有评分向量的平均值代替。 imdb_rating_with_ml20.csv：从MovieLens 20M数据集中筛选，仅保留imdb_data.csv中包含的电影的评分数据，并添加imdb_id。

请注意，本数据集的构建包含作者的主观处理，使用时请谨慎考虑。

数据用途概述：该数据集主要用于电影推荐系统的构建和研究。研究人员可以利用此数据进行推荐算法的开发和评估，探索不同的推荐模型，例如基于内容的推荐、协同过滤推荐等。数据集也适用于进行电影数据的分析，例如分析不同演员、导演、类型的电影之间的关系，以及用户评分与电影特征之间的关联。此外，该数据集可以用于机器学习模型的训练，例如构建预测用户评分的模型。

数据与资源

电影推荐系统构建-IMDB与MovieLens融合预处理数据集.zipZIP
81.55 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	81.55 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。