IMDb电影信息与观众评价数据集

IMDb电影信息与观众评价数据集 数据来源:互联网公开数据 标签:电影, IMDb, 影视, 评价, 评分, 票房, 电影类型, 数据集 数据概述: 本数据集包含了来自互联网电影数据库(IMDb,Internet Movie Database)的电影相关信息,IMDb 拥有超过600万个电影条目,其中约有50万部是电影作品。本数据集的核心部分是关于7.5万部电影的详细信息,包括电影描述、平均评分、投票数量、电影类型等关键属性。

此外,数据集还按照电影类型进行了划分,共涵盖了22种不同的电影类型。主数据集“all_df.csv”包含了所有电影的综合信息。

为了进一步支持数据分析,数据集还包含了基于词频-逆文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)的稀疏矩阵,该矩阵通过应用TfidfVectorizer[analyzer='word, ngram_range=(1,3), stopwords='english']生成,用于提取电影描述中的关键词特征。

数据来源于公开的 IMDb 网站(https://www.imdb.com),具有广泛的代表性和参考价值。

数据用途概述: 该数据集可用于电影推荐系统开发、电影票房预测、观众情感分析、电影类型分析、电影评论文本挖掘等多种应用场景。研究人员可以利用此数据分析电影评分与票房之间的关系;开发者可以构建个性化电影推荐模型;市场分析师可以研究不同类型电影的观众偏好;教育工作者可以将其用于数据科学和自然语言处理的教学。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 114.06 MiB
最后更新 2025年4月16日
创建于 2025年4月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。