IMDB电影评论情感分析数据集-2011-belayati

IMDB电影评论情感分析数据集-2011-belayati 数据来源:互联网公开数据 标签:IMDB,电影评论,情感分析,自然语言处理,机器学习,数据集,训练集,测试集,无标签数据 数据概述: 本数据集包含50,000条IMDB电影评论,特别选取用于情感分析。评论的情感分为二元类别:IMDB评分低于5分为负面情感(sentiment=0),评分高于等于7分为正面情感(sentiment=1)。每个电影的评论数量不超过30条。有标签的训练数据集包含25,000条评论,与25,000条评论的测试数据集完全不重叠。此外,还提供了50,000条未标注的情感评论。 数据集包含以下文件: labeledTrainData - 标签化的训练集。文件为制表符分隔,包含一个标题行,随后是25,000行数据,每行包含评论的唯一ID、情感标签和评论文本。 testData - 测试集。文件为制表符分隔,包含一个标题行,随后是25,000行数据,每行包含评论的唯一ID和评论文本,需要预测每条评论的情感。 unlabeledTrainData - 无标签的训练集。文件为制表符分隔,包含一个标题行,随后是50,000行数据,每行包含评论的唯一ID和评论文本。 sampleSubmission - 提交结果的示例文件,格式为逗号分隔。 数据字段说明: id - 每条评论的唯一标识符 sentiment - 评论的情感标签;1表示正面情感,0表示负面情感 review - 评论的文本内容 数据用途概述: 该数据集适用于情感分析、自然语言处理和机器学习等领域的研究与教学。研究人员可以使用此数据集构建和评估情感分类模型;教育者可以利用此数据集进行课程教学和项目演示;开发者可以将模型应用于实际产品中,以自动分析用户评论的情感倾向。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 51.66 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。