豆瓣电影短评情感分析数据集10377部电影-liujt14
数据来源:互联网公开数据
标签:豆瓣电影,短评,情感分析,评论,电影评论,观众反馈,中文,电影数据,情感分类
数据概述:
本数据集收录了豆瓣电影网站上超过10,300部电影的短评数据,总计超过10,310,988条评论。数据来源于豆瓣电影平台,该平台是中国最受欢迎的电影搜索和评论平台。数据集涵盖了多种电影类型,包括剧情、喜剧、动作、爱情、科幻等22种不同的电影类型。每种类型下选取了约2000部电影的评论。根据用户评分,评论被划分为三种情感类别:积极(4-5星)、中性(3星)和消极(1-2星),每种情感类别下约有500条评论。数据集经过了去重处理。
数据用途概述:
该数据集适用于多方面的研究与分析,包括:
1. 情感分析: 研究中国观众对不同电影的情感倾向。
2. 电影类型分析: 分析不同电影类型对应的观众反馈差异。
3. 用户行为分析: 研究用户评论行为与电影评分之间的关系。
4. 电影推荐系统: 用于构建基于用户评论的个性化电影推荐系统。
5. 市场调研: 了解观众对电影的偏好和评价,为电影制作和发行提供参考。
6. 自然语言处理(NLP): 用于评论文本的情感识别、关键词提取等NLP任务。
字段说明:
* ID: 评论的唯一标识符,从0开始编号。
* Movie_Name: 电影的完整名称,可能包含中文、英文或粤语名称。
* Score: 电影的整体评分。
* Review_People: 参与评价的人数。
* Star_Distribution: 各星级评分(5星到1星)的占比。
* Craw_Date: 数据抓取日期。
* Username: 评论者的用户名。
* Date: 评论发表日期。
* Star: 评论者给出的电影星级评分(1-5星)。
* Comment: 评论内容。
* Comment_Distribution: 评论的情感分布,分为积极(4-5星)、中性(3星)和消极(1-2星)三类。
* Like: 评论获得的赞同数。