人口动态基础模型PDFM嵌入数据集-美国地域-时序-veeralakrishna

人口动态基础模型PDFM嵌入数据集-美国地域-时序-veeralakrishna

数据来源:互联网公开数据

标签:人口动态,嵌入,GNN,空间分析,预测,搜索趋势,地图数据,活动水平,气象数据,空气质量,公共卫生,社会经济,零售,市场营销,地理信息系统,机器学习

数据概述: 本数据集包含美国地域的人口动态基础模型(PDFM)嵌入,这些嵌入是为特定位置设计的压缩向量表示,用于捕捉人类行为、环境因素和当地环境之间复杂、多维度的相互作用。数据基于聚合数据,包括搜索趋势、繁忙程度、环境条件(地图数据、空气质量、温度等),提供了丰富的、特定于位置的快照,反映了人口与其周围环境的互动方式。通过空间和时间上的聚合,这些嵌入在确保隐私的同时,实现了对从公共卫生到社会经济建模等多种应用的细致的空间分析和预测。

PDFM 嵌入使用图神经网络(GNN)模型生成,该模型基于以下丰富特征进行训练:

聚合搜索趋势:反映区域兴趣和关注点的搜索数据。 聚合地图数据:关于位置的地理空间和上下文数据。 聚合繁忙程度:特定区域的活动水平,指示人类存在的密度和频率。 聚合天气和空气质量:气候相关指标,包括温度和空气质量。

这些特征在邮政编码和县级进行聚合,以生成本地化的、上下文感知的嵌入,从而保护隐私。

嵌入数据覆盖了美国本土所有县和邮政编码区域。

数据用途概述: PDFM 嵌入可应用于广泛的地理空间预测任务,类似于人口普查和社会经济统计数据。示例用例包括:

人口健康结果:预测疾病患病率或人口健康风险等健康统计数据。 社会经济因素:对经济指标和生活条件进行建模。 零售:识别有前景的新店选址、市场扩张和需求预测。 市场营销和销售:描述高性能区域,并识别相似区域以优化市场营销和销售工作。

通过结合空间关系和多样化的特征类型,这些嵌入成为了地理空间预测的强大工具。

使用说明: 1. 准备地面真实数据:为了使用人口动态嵌入,需要在邮政编码或县级准备地面真实数据(例如,用于预测任务的靶变量,如哮喘患病率)。 2. 选项 1:将嵌入整合到现有模型中。 * 准备基于现有模型的地面真实数据:将嵌入用作地理空间协变量,以增强现有模型。 * 训练适配器模型:通过整合嵌入来改进现有模型。 3. 选项 2:针对特定用例进行调整。 * 选择预测模型:任何模型,例如 GBDT、MLP 或线性模型,都可用于预测。 * 使用嵌入进行预测:将 PDFM 嵌入用作输入特征,与其他上下文数据一起使用,以提高预测准确性。 4. 演示 / 笔记本:探索演示笔记本,以了解 PDFM 嵌入的各种用例。提供的代码在 Apache 2.0 许可证下可用。 * 现在预测 Colab:该模型使用过去和部分当前数据(县级)预测目标变量,以预测剩余县的结果。 * 超分辨率和插补 Colab:使用嵌入来帮助训练县级模型,以预测邮政编码级别的目标变量。该模型还演示了插补功能,通过对 20% 的邮政编码进行训练并预测剩余的 80% 来实现。 * 使用 TimesFM 进行预测 Colab:在这个实验性用例中,结合了 TimesFM(一个单变量预测模型)来执行时空预测。嵌入用于调整预测中的错误并提高其准确性。 * 使用 Earth Engine Colab 进行夜间灯光预测:此笔记本演示了如何从嵌入中预测 Earth Engine 数据(如夜间灯光)。通过引用 Earth Engine 数据,模型增强了对地理空间的理解,并演示了在环境和社会经济预测中的应用。 5. 基准测试:以下基准文件包含用于评估基于人口动态的嵌入的地面真实数据。它们可以与嵌入一起使用,以重现结果并评估各种地理空间和时间预测任务的性能。 * 插补、超分辨率和外推:conus27 文件是一个通用的数据集,支持涉及插补(填补空白)、超分辨率(以更精细的空间尺度进行预测)和外推(在大型缺失区域上投影数据)的任务。此文件包括位置信息(地点、县、州、纬度、经度)和关键人口健康指标的详细列,以及地理特征,如树木覆盖、海拔和夜间灯光。 * 预测:该模型在时间预测方面的能力通过两个数据集进行说明: * county_unemployment.csv:包含 1990 年至 2024 年期间的县级失业数据(每月),使用户能够跟踪随时间的就业趋势。 * zcta_poverty.csv:此文件提供了 2011 年至 2022 年邮政编码制表区(ZCTA)级别的年度贫困估计,从而可以更精细的空间尺度了解社会经济变化。 6. 地面真实数据的来源:基准测试中包含的所有地面真实数据均来自公共来源,通过 Data Commons 和 Google Earth Engine API 获取。原始来源列表如下: * Data Commons 来源 * 健康变量:CDC PLACES 2022 * 失业:bls.gov * 贫困:census.gov * Google Earth Engine 来源 * ZCTA 和县界:TIGER/2010/ZCTA5,TIGER/2016/Counties * 树木覆盖:ESA/WorldCover/v100 * 夜间灯光:NOAA/VIIRS/DNB/ANNUAL_V22 * 海拔:USGS/SRTMGL1_003 * 2020 ZCTA 与县的关系文件

授权协议: 人口动态基础模型嵌入根据知识共享署名 4.0 国际 (CC BY 4.0) 许可证发布。您可以自由共享和改编此数据,但在您的研究或应用程序中包含这些嵌入时,请引用我们的工作。

参考引用: @article{agarwal2024pdfm, title={General Geospatial Inference with a Population Dynamics Foundation Model}, author={Mohit Agarwal, Mimi Sun, Chaitanya Kamath, Arbaaz Muslim, Prithul Sarker, Joydeep Paul, Hector Yee, Marcin Sieniek, Kim Jablonski, Yael Mayer, David Fork, Sheila de Guia, Jamie McPike, Adam Boulanger, Tomer Shekel, David Schottlander, Yao Xiao, Manjit Chakravarthy Manukonda, Yun Liu, Neslihan Bulut, Sami Abu-el-haija, Arno Eigenwillig, Parth Kothari, Bryan Perozzi, Monica Bharel, Von Nguyen, Luke Barrington, Niv Efron, Yossi Matias, Greg Corrado, Krish Eswaran, Shruthi Prabhakara, Shravya Shetty, Gautam Prasad}, journal={arXiv preprint arXiv:2411.07207}, year={2024} }

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 152.77 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。