全球COVID-19症状调查数据集-2020至2023年-vyaduvanshi
数据来源:互联网公开数据
标签:COVID-19,症状调查,全球健康,大数据,UMD,Facebook,疫情防控,公共卫生,数据API,科研
数据概述:
本数据集由马里兰大学(UMD)通过其API收集,基于Facebook平台上的全球症状调查数据。调查内容包括受访者家庭中出现COVID-19样症状的人数等信息。调查为自愿参与,且个人调查结果仅由马里兰大学保存,并允许在符合数据使用协议的情况下与其他健康研究人员共享,不向Facebook反馈个人调查结果。通过这些调查数据,研究人员可以估计特定地理区域在特定日期患有COVID-19样症状(CLI)或流感样症状(ILI)的人口比例。
数据集包含七个字段,详细描述如下:
country:数据所在国家名称。
region:数据所在国家的子地区名称,一般为州或省级别或等同级别。
percent_cli:报告COVID-19样症状(CLI)的加权调查响应百分比。基于Facebook全球症状调查数据计算,使用调查数据估计特定国家或地区在特定日期患有COVID-19样症状的人口比例,加权由Facebook提供。
percent_ili:报告流感样症状(ILI)的加权调查响应百分比。基于Facebook全球症状调查数据计算,使用调查数据估计特定国家或地区在特定日期患有流感样症状的人口比例,加权由Facebook提供。
percent_cli_unw:报告COVID-19样症状(CLI)的未加权调查响应百分比。
percent_ili_unw:报告流感样症状(ILI)的未加权调查响应百分比。
smoothed_cli:percent_cli值的七天滚动平均值。
smoothed_ili:percent_ili值的七天滚动平均值。
smoothed_cli_se:smoothed_cli的标准误差。
smoothed_ili_se:smoothed_ili的标准误差。
cli_se:percent_cli的标准误差。
ili_se:percent_ili的标准误差。
cli_se_unw:percent_cli_unw的标准误差。
ili_se_unw:percent_ili_unw的标准误差。
sample_size:用于计算目标值的样本大小。
iso_code:ISO国家代码是国际公认的用于指定每个国家和大多数附属地区的两位或三位字母组合。
gid_0:用于将国家级别数据连接到GADM国家级别数据的代码。
gid_1:用于将地区级别数据连接到GADM地区级别数据的代码。
数据用途概述:
该数据集适用于多个研究与分析场景,包括公共卫生监测、疫情趋势分析、疫情防控政策制定、公众健康教育等。研究人员可以利用此数据了解不同国家和地区的疫情发展情况;政策制定者可基于数据调整疫情防控措施;公众可以参考数据了解自身所在区域的疫情状况。此外,该数据集还适合用于教育培训,帮助学习者理解疫情监测和数据分析的方法。
致谢:
我们希望此API对不同的研究团体有所帮助。如果您使用该API并希望引用它,以下为合适的引用格式:
Junchuan Fan, Yao Li, Kathleen Stewart, Anil R. Kommareddy, Adrianne Bradford, Samantha Chiu, Frauke Kreuter, Neta Barkay, Alyssa Bilinski, Brian Kim, Roee Eliat, Tal Galili, Daniel Haimovich, Sarah LaRocca, Stanley Presser, Katherine Morris, Joshua A Salomon, Elizabeth A. Stuart, Ryan Tibshirani, Tali Alterman Barash, Curtiss Cobb, Andres Garcia, Andi Gros, Ahmed Isa, Alex Kaess, Faisal Karim, Ofir Eretz Kedosha, Shelly Matskel, Roee Melamed, Amey Patankar, Irit Rutenberg, Tal Salmona, Tal Sarig, David Vannette (2020). COVID-19 World Symptom Survey Data API. https://covidmap.umd.edu/api.html
方法论:
详细的方法描述请参阅相关文档。
实时估计:
我们的数据API返回的每日COVID-19指标代表我们基于目前所有可用数据的最佳估计。当前日期的指标估计值通常会在两天后可用,由于数据加权和聚合过程导致。
平滑估计:
对于每个平滑指标,我们的估计值使用数据平滑技术(类似于平均或加权平均)在一个一周的时间窗口内计算得出。平滑估计将多个日期的调查响应结果聚合到一个地理区域中。因此,与实时估计相比,更广泛的地理区域将拥有平滑估计结果。
缺失估计:
通常情况下,我们不会报告调查响应不足(或数据不够最新)的位置的估计值。