电影推荐系统构建-IMDB与MovieLens融合预处理数据集

电影推荐系统构建-IMDB与MovieLens融合预处理数据集 数据来源:互联网公开数据 标签:电影推荐,IMDB,MovieLens,推荐系统,数据预处理,矩阵分解,自然语言处理,电影数据,评分数据 数据概述: 本数据集是为构建电影推荐系统而进行的数据预处理结果。该数据集整合了来自IMDB和MovieLens的数据,包含了约9万部电影的信息以及用户评分数据。数据处理过程中,作者运用了多种技术,包括基于用户评分的矩阵分解,提取演员和导演的特征;使用预训练的BERT模型,对电影剧情进行处理,去除可能影响句子分析的专有名词,仅保留名词。

数据集包含以下几个关键文件:

imdb_data.csv:基于IMDB网站抓取的数据,约91,515部电影。预处理后的字段包括: story:经过BERT处理,去除人名等干扰信息,仅保留名词的电影剧情。 actors:选取电影中主要的四位演员,并转换为小写,以减少数据偏颇。 genre:最多保留3个电影类型。 actors_order:演员在actors_vectors中的索引,与actors的顺序一致。 directors_order:导演在directors_vectors中的索引。 popularity:基于年份投票数的归一化排名值,范围0-1。 actors_vectors.p, directors_vectors.p:基于IMDB数据和评分数据,通过截断奇异值分解(SVD)生成的演员和导演的向量。文件名后缀如“_10, _20”表示每个用户使用的评分数据量。无后缀文件为随机生成的向量。若演员或导演无评分,则使用有评分向量的平均值代替。 imdb_rating_with_ml20.csv:从MovieLens 20M数据集中筛选,仅保留imdb_data.csv中包含的电影的评分数据,并添加imdb_id。

请注意,本数据集的构建包含作者的主观处理,使用时请谨慎考虑。

数据用途概述: 该数据集主要用于电影推荐系统的构建和研究。研究人员可以利用此数据进行推荐算法的开发和评估,探索不同的推荐模型,例如基于内容的推荐、协同过滤推荐等。数据集也适用于进行电影数据的分析,例如分析不同演员、导演、类型的电影之间的关系,以及用户评分与电影特征之间的关联。此外,该数据集可以用于机器学习模型的训练,例如构建预测用户评分的模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 81.55 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。