IMDB电影评论情感分析数据集-2011-belayati
数据来源:互联网公开数据
标签:IMDB,电影评论,情感分析,自然语言处理,机器学习,数据集,训练集,测试集,无标签数据
数据概述:
本数据集包含50,000条IMDB电影评论,特别选取用于情感分析。评论的情感分为二元类别:IMDB评分低于5分为负面情感(sentiment=0),评分高于等于7分为正面情感(sentiment=1)。每个电影的评论数量不超过30条。有标签的训练数据集包含25,000条评论,与25,000条评论的测试数据集完全不重叠。此外,还提供了50,000条未标注的情感评论。
数据集包含以下文件:
labeledTrainData - 标签化的训练集。文件为制表符分隔,包含一个标题行,随后是25,000行数据,每行包含评论的唯一ID、情感标签和评论文本。
testData - 测试集。文件为制表符分隔,包含一个标题行,随后是25,000行数据,每行包含评论的唯一ID和评论文本,需要预测每条评论的情感。
unlabeledTrainData - 无标签的训练集。文件为制表符分隔,包含一个标题行,随后是50,000行数据,每行包含评论的唯一ID和评论文本。
sampleSubmission - 提交结果的示例文件,格式为逗号分隔。
数据字段说明:
id - 每条评论的唯一标识符
sentiment - 评论的情感标签;1表示正面情感,0表示负面情感
review - 评论的文本内容
数据用途概述:
该数据集适用于情感分析、自然语言处理和机器学习等领域的研究与教学。研究人员可以使用此数据集构建和评估情感分类模型;教育者可以利用此数据集进行课程教学和项目演示;开发者可以将模型应用于实际产品中,以自动分析用户评论的情感倾向。