数据2017至2020年黎巴嫩社交网络阿拉伯化语言情感分析数据集

数据2017至2020年黎巴嫩社交网络阿拉伯化语言情感分析数据集 数据来源:互联网公开数据 标签:情感分析,阿拉伯化语言,社交媒体,黎巴嫩,数据集,自然语言处理,机器学习

数据概述: 本数据集包含2017年至2020年间在黎巴嫩发布的带有地理标签的阿拉伯化语言(Arabizi)推文,适用于情感分析研究。数据集分为两个版本:二分类情感标签(积极或消极)和三分类情感标签(积极、消极或中性)。所有推文均经过至少两人标注,确保标注的准确性。

字段说明: Text: 推文文本内容 Sentiment: 情感标签(Positive, Negative, Neutral) Highlight: 情感突出类别,如宗派主义、性别歧视、种族歧视、粗俗语言、欺凌、讽刺、笑话、礼貌用语、名言、已知事实

数据集文件: unbalanced-sentiment-arabizi-ds.csv: 包含所有标注推文 2-class-sentiment-arabizi-ds.csv: 标注为积极或消极的推文 3-class-sentiment-arabizi-ds.csv: 标注为积极、消极或中性的推文

数据用途概述: 该数据集适用于情感分析模型的测试和验证,特别是在阿拉伯化语言处理领域的研究。研究者可以利用此数据集来训练和评估情感分析算法,了解算法在处理阿拉伯化语言推文上的表现。此外,该数据集亦可用于分析社交网络上的情感趋势、识别特定情感类别(如宗派主义、性别歧视等)的表达方式以及评估不同情感类别之间的不平衡性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.19 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。