电影评论情感分析葡萄牙语-英语双语数据集MovieReviewsSentimentAnalysisPortuguese-EnglishBilingualDataset-studymart

电影评论情感分析葡萄牙语-英语双语数据集MovieReviewsSentimentAnalysisPortuguese-EnglishBilingualDataset-studymart

数据来源:互联网公开数据

标签:情感分析, 文本挖掘, 机器翻译, 双语语料库, 电影评论, 葡萄牙语, 英语, 自然语言处理

数据概述: 该数据集包含来自IMDB(互联网电影数据库)的电影评论,并提供了英语原文和葡萄牙语翻译,以及对应的情感标签。主要特征如下: 时间跨度:数据未明确标注时间戳,可视为静态语料库。 地理范围:评论内容主要基于全球电影,评论者可能来自不同国家。 数据维度:数据集包括四个字段:id(评论唯一标识符),text_en(英语评论原文),text_pt(葡萄牙语评论翻译),sentiment(情感标签,通常为“neg”代表负面情感,其他标签可能代表正面或中性情感)。 数据格式:CSV格式,文件名为imdb-reviews-pt-br.csv,方便文本处理和分析。 来源信息:数据来源于IMDB电影评论,经过整理和翻译,并标注了情感极性。 该数据集适合用于情感分析、机器翻译、跨语言文本分析等研究,也适用于构建和评估多语言自然语言处理模型。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于情感分析、机器翻译、跨语言文本理解等领域的研究,例如进行情感极性分类、比较不同语言的情感表达差异、构建跨语言情感分析模型等。 行业应用:可用于电影推荐系统、舆情分析系统,以及跨语言内容审核等应用。 决策支持:支持电影行业进行市场调研和观众反馈分析,帮助制定营销策略。 教育和培训:作为自然语言处理和机器翻译课程的实训数据,帮助学生理解多语言文本分析的流程和方法。 此数据集特别适合用于研究不同语言的情感表达差异,以及构建跨语言情感分析模型,从而提高对多语言文本的理解和处理能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 47.73 MiB
最后更新 2025年5月15日
创建于 2025年5月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。