家庭电影推荐应用电影数据集2023-rafaelsguerra
数据来源:互联网公开数据
标签:电影推荐,数据集,RAG结构,Rotten Tomatoes,电影评分,电影摘要,电影评论,演员阵容
数据概述:
本数据集包含了从Rotten Tomatoes网站抓取的电影信息,适用于构建电影推荐应用。数据集涵盖了近2万个电影条目,每个电影条目包含如下关键字段:
- 标题:电影的正式名称
- 年份:电影的上映年份
- 类型:电影所属的分类标签,如动作片、喜剧片等
- 时长:电影的片长,单位为分钟
- 导演:电影的导演信息
- 评分:公众评分和专业评论家评分
- 摘要:电影的简短描述或摘要,来自专业评论家的介绍
- 上映日期:电影的正式上映日期
- 海报链接:电影海报的图片链接
- 评分链接:电影评分的详细页面链接
数据集使用Python编写爬虫程序从Rotten Tomatoes网站抓取信息,过程中注意控制请求频率以避免触发网站的请求限制。数据集的字段选择聚焦于构建推荐系统时需要的关键信息,省去了电影页面中使用JavaScript动态加载的隐藏内容。
数据用途概述:
该数据集适用于电影推荐系统的开发、电影数据分析、用户体验研究等多种场景。数据集中的评分信息可用于基于用户评分的推荐算法;电影摘要和类型可用于内容基于的推荐方法;导演和演员阵容信息(未来将添加)可用于社交过滤推荐。本数据集为电影相关应用和研究提供了丰富且实用的数据支持。