阿尔巴尼亚语社交媒体评论人工标注情感分析数据集2020

数据集概述

本数据集包含2020年3月12日至8月31日期间,从科索沃国家公共卫生研究所(NIPHK)官方Facebook页面收集的阿尔巴尼亚语社交媒体评论,共10,132条,每条含12个属性,用于情感分析研究。

文件详解

该数据集由根目录和raw_data子目录组成,具体文件说明如下: - 根目录文件: - Dataset.csv:CSV格式,包含核心标注数据,字段包括Id(唯一标识)、Comment(评论内容)、Like(点赞数)、Comment's timestamp(评论时间戳)、Post's timestamp(帖子时间戳)、#Deaths(死亡数)、#Infected(感染数)、#Healed(治愈数)、Annot 1(标注者1情感标注)、Annot 2(标注者2情感标注)、Annot 3(标注者3情感标注)、Final annotation 1(最终情感标注)。 - raw_data目录文件: - Length_of_reviews_chart.xlsx:Excel格式,可能包含评论长度分布图表数据。 - Sentiment_charts.xlsx:Excel格式,可能包含情感分布相关图表数据。 - Figure 5_Workflow_process_for_creation_of_dataset.drawio:drawio格式,数据集创建流程示意图。 - Jupyter_notebook_for_gennerating_dataset_statistics.ipynb:Jupyter Notebook格式,用于生成数据集统计信息的代码文件。

适用场景

  • 自然语言处理研究:用于阿尔巴尼亚语情感分析模型的训练与验证。
  • 公共卫生舆情分析:研究新冠疫情期间科索沃民众的社交媒体情感倾向。
  • 数据标注方法论研究:分析多标注者情感标注的一致性与流程优化。
  • 社交媒体数据分析:探索疫情相关评论的长度分布、情感趋势等特征。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.93 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。