土耳其电影评论情感分析数据集-贝亚兹帕尔德网站-ozcan15

土耳其电影评论情感分析数据集-贝亚兹帕尔德网站-ozcan15 数据来源:互联网公开数据 标签:情感分析,NLP,土耳其语,电影评论,用户反馈,数据集,交叉语言分析,机器翻译,数据科学

数据概述: 本数据集收录了来自贝亚兹帕尔德(beyazperde.com)网站的用户电影评论及其对应的情感标签,用于训练情感分析模型。贝亚兹帕尔德网站类似于IMDb,用户可以在该网站上发表关于电影的评论,并给出星级评分。网站每月拥有近550万的访问量。

原始数据集(Demirtas和Pechenizkiy, 2013)包含10662条评论,这些评论的星级评分从1到5不等。根据星级评分,评论被分为积极和消极两类:4星或5星的评论被视为积极评论;1星或2星的评论被视为消极评论;3星的评论被排除在外。

最终数据集经过平衡处理。在训练数据集中,包含3998条积极评论和3998条消极评论。测试数据集中则包含1333条积极评论和1333条消极评论。

数据结构非常简单,包含两列:用户评论及其对应的情感标签。0表示消极评论,1表示积极评论。

数据用途概述: 该数据集适用于自然语言处理中的情感分析研究、机器翻译技术在跨语言情感检测中的应用、电影评论分析等多个场景。研究人员可以利用此数据集训练情感分析模型,评估模型在低资源语言(如土耳其语)中的表现;教育者可将其用于教学示例,帮助学生理解情感分析的基本概念;电影评论者和分析者可以利用该数据集进行电影评论的情感倾向分析,为电影推荐和市场评估提供依据。此外,该数据集也是跨语言情感分析研究的重要资源,有助于提高不同语言之间情感信息的互操作性和理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.56 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。