数据2017至2020年黎巴嫩社交网络阿拉伯化语言情感分析数据集
数据来源:互联网公开数据
标签:情感分析,阿拉伯化语言,社交媒体,黎巴嫩,数据集,自然语言处理,机器学习
数据概述:
本数据集包含2017年至2020年间在黎巴嫩发布的带有地理标签的阿拉伯化语言(Arabizi)推文,适用于情感分析研究。数据集分为两个版本:二分类情感标签(积极或消极)和三分类情感标签(积极、消极或中性)。所有推文均经过至少两人标注,确保标注的准确性。
字段说明:
Text: 推文文本内容
Sentiment: 情感标签(Positive, Negative, Neutral)
Highlight: 情感突出类别,如宗派主义、性别歧视、种族歧视、粗俗语言、欺凌、讽刺、笑话、礼貌用语、名言、已知事实
数据集文件:
unbalanced-sentiment-arabizi-ds.csv: 包含所有标注推文
2-class-sentiment-arabizi-ds.csv: 标注为积极或消极的推文
3-class-sentiment-arabizi-ds.csv: 标注为积极、消极或中性的推文
数据用途概述:
该数据集适用于情感分析模型的测试和验证,特别是在阿拉伯化语言处理领域的研究。研究者可以利用此数据集来训练和评估情感分析算法,了解算法在处理阿拉伯化语言推文上的表现。此外,该数据集亦可用于分析社交网络上的情感趋势、识别特定情感类别(如宗派主义、性别歧视等)的表达方式以及评估不同情感类别之间的不平衡性。