猴痘疫情社交媒体信息传播分析数据集-2022年7月-8月
数据来源:互联网公开数据
标签:猴痘,疫情,社交媒体,推特,信息,误导信息,分类,文本分析,公共卫生,健康
数据概述:
本数据集包含两组关于猴痘病毒的推文数据,旨在用于分析社交媒体上猴痘相关信息的传播情况,特别是误导性信息的识别。数据集中的推文均来自推特平台,并经过人工标注,标注方式包括两种:
- 二元分类:将推文分为“误导信息”和“其他”两类。
- 三元分类:将推文分为“误导信息”、“有效信息”和“其他”三类。
由于信息分类的复杂性,建议在使用三元分类数据时,如进行模型训练,可以考虑去除“其他”类别,以提高分类效果。
第一组数据集(monkeypox.csv)包含2022年7月初几天发布的推文,数据量较大。第二组数据集包含2022年8月30日发布的推文,数据量较小。
数据来源于世界卫生组织(WHO)、美国疾病控制与预防中心(CDC)、英国国家医疗服务体系(NHS)等权威公共卫生机构,以及Politifact和Snopes等事实核查网站。
数据用途概述:
该数据集可用于训练和评估社交媒体上关于猴痘疫情的信息分类器,特别是针对误导性信息的检测。研究人员可以利用较大规模的7月数据训练分类模型,然后在8月的数据上测试模型在不同时间段的表现。
具体应用场景包括:
* 构建基于文本分析的误导信息检测系统。
* 研究社交媒体上关于猴痘疫情的信息传播规律。
* 评估不同信息来源的可信度。
* 开发用于监测和干预社交媒体上虚假信息的工具。