IMDB电影推荐与分析数据集-bharatkumar0925
数据来源:互联网公开数据
标签:电影,IMDB,推荐系统,电影分析,票房,演员,导演,电影类型,数据清洗
数据概述:
本数据集包含超过3000部电影的详细信息,主要用于构建电影推荐系统和进行电影分析。数据来源于IMDB,并提供了两个版本的数据文件:indian-movies.csv和clean-data.csv。indian-movies.csv包含原始数据,而clean-data.csv是经过清洗和处理后的数据,更适合直接用于分析和建模。数据清洗过程包括去除前后空格、统一小写等处理。clean-data.csv文件包含了从原始数据中提取的演员、角色、导演、制片人等关键信息,并移除了冗余信息。
数据用途概述:
该数据集可用于多种用途,主要包括:
电影分析:
* 分析最受欢迎的电影。
* 研究最成功的演员/导演(基于受欢迎程度)。
* 探索电影受欢迎程度与标题长度的关系。
* 分析不同月份上映电影的成功率。
* 研究不同电影类型的制作频率。
(请注意:在使用该数据集进行电影分析时,需首先明确“受欢迎”的定义标准。)
推荐系统:
* 预测电影的受欢迎程度得分、平均投票和投票总数。
clean-data.csv数据集的详细字段信息:
* movie_id:电影ID
* overview:电影概述
* popularity:TMDB提供的受欢迎程度得分
* release_date:上映日期
* title:电影标题
* vote_average:平均投票
* vote_count:总投票数
* genres:电影类型
* keywords:电影关键词
* month:上映月份
* year:上映年份
* director:导演
* producer:制片人
* actors:电影中的前三位演员
* characters:电影中的前三个角色
* tags:电影所有相关属性的组合,包括概述、关键词、演员等