IMDB电影与剧集信息综合数据集
数据来源:互联网公开数据
标签:电影,剧集,IMDB,票房,评分,演员,导演,类型,数据挖掘,机器学习
数据概述:
本数据集旨在为多种应用场景提供训练数据,包括回归分析、分类任务和神经网络模型构建。数据集通过网络爬虫技术,从IMDB网站的搜索页面抓取电影和剧集数据,并补充了部分缺失的特征。数据按照影片的投票数量从高到低排序,共收录了约189900部电影和剧集的信息。
数据集包含以下字段:
- 电影名称 (str):电影或剧集的名称。
- 电影上映日期 (date):电影的上映日期。
- 剧集名称 (str):剧集季的名称(若有)。
- 剧集播出日期 (date):剧集季的播出日期(若有)。
- 电影类型 (str):电影的类型(如动作、剧情、科幻等)。
- 投票数量 (int):为该影片投票的人数。
- 票房收入(百万美元)(int):电影的票房收入,以百万美元为单位。
- 评分 (float):影评人对电影的平均评分(1-10分)。
- Metascore (int):观众对电影或剧集的平均评分(1-100分)。
- 时长 (int):电影的时长,以分钟为单位。
- 导演 (list):导演列表。
- 演员 (list):主要演员列表。
- 分级 (str):年龄分级和警告信息(如全年龄、12岁、16岁等)。
- 剧情简介 (str):电影的简要剧情介绍。
数据用途概述:
该数据集可用于电影票房预测、电影类型分类、用户评分预测等多种研究和应用。研究人员可以利用此数据进行电影行业趋势分析、演员和导演的影响力评估、电影类型与票房收入关系研究等。同时,该数据集也适合用于机器学习模型的训练和评估,例如构建推荐系统、情感分析模型等。
授权协议:CC BY-SA 4.0