COVID-19全时段病例统计数据集
数据来源:互联网公开数据
标签:COVID-19,病例统计,全球疫情,时间序列,疫情分析,公共卫生,数据可视化
数据概述:
本数据集包含了自2019年12月1日至2020年4月20日的全球各国COVID-19病例统计信息,包括确诊、疑似、治愈和死亡病例的累计总数。数据集结合了两个原始数据集,分别来自丁香园(Ding Xiang Yuan)和《柳叶刀》杂志的一篇科学论文。对于中国数据,还包括了省级和市级(如有报告)的病例详情。
数据用途概述:
该数据集适用于疫情趋势分析、公共卫生研究、政策评估等多种应用场景。研究人员可以利用此数据进行时间序列分析,追踪全球疫情的发展趋势;公共卫生机构可以借助数据制定和调整防控策略;政策制定者则可以基于数据评估公共卫生政策的有效性。此外,数据集也适合用于教育培训,帮助学生和公众了解疫情发展的动态规律。
数据结构:
要获取国家层面的数据:
除中国外的所有国家在每个时间戳(字段:updateTime)中仅有一条记录。
由于中国的数据结构为层级结构,获取国家层面数据需满足provinceName == 'China'。
要获取中国省级数据:
countryName == 'China' 且 provinceEnglishName == (省份名称),请参考字段province_confirmedCount。
要获取中国市级数据:
countryName == 'China' 且 provinceEnglishName == (省份名称),建议使用city_zipCode,因cityName和cityEnglishName可能存在非标准化数据。
请注意,由于数据结构的变更,部分数据可能需要进一步调整。
数据清洗:
对原始数据集进行了以下清洗工作:
在cityName存在时,填充了cityEnglishName中的NULL值并标准化其他字段值。
在cityName存在时,填充了city_zipCode中的NULL值并标准化其他字段值。
city_zipCode映射:细节包含在'city data cleaning reference.csv'中。
0代表“未定义地区”
1代表“国内输入”
2代表“国际输入”
%99/98/97/96等代表没有单独邮编但在报告数据中指定了的区域