数据集概述
本数据集包含2020年4月17日至8月8日期间,巴西和美国与COVID-19相关的推特消息ID,分为葡萄牙语和英语两个文件,各约300万条ID。用户可通过ID下载完整推文对象,用于主题检测和情感分析研究。
文件详解
- 文件名称:covid-data-pt-unique-ids.zip
- 文件格式:ZIP
- 字段映射介绍:包含巴西葡萄牙语COVID-19相关推文的唯一ID列表,无其他字段,需通过ID调用推特API获取完整推文内容。
- 文件名称:covid-data-en-unique-ids.zip
- 文件格式:ZIP
- 字段映射介绍:包含美国英语COVID-19相关推文的唯一ID列表,无其他字段,需通过ID调用推特API获取完整推文内容。
数据来源
论文“Topic detection and sentiment analysis in Twitter content related to COVID-19 from Brazil and the USA”
适用场景
- COVID-19社交媒体舆情分析: 通过推文ID获取内容,研究巴西和美国用户对疫情的讨论主题与情感倾向。
- 跨语言主题检测研究: 对比葡萄牙语和英语推文的疫情相关话题差异。
- 情感分析模型训练: 以推文ID对应的内容为语料,训练或验证疫情相关情感分析模型。
- 公共卫生政策参考: 分析不同国家疫情期间的社交媒体舆论,为公共卫生决策提供数据支持。