美国1994年人口普查收入预测增强数据集-mathurinache
数据来源:互联网公开数据
标签:人口普查,收入预测,增强数据,机器学习,数据生成,CTGAN
数据概述:
本数据集基于1994年人口普查局数据库,由Ronny Kohavi和Barry Becker提取。数据集通过以下条件筛选出了一组较为干净的记录:(年龄大于16岁) && (年收入大于100美元) && (最终权重大于1) && (每周工作小时数大于0)。该数据集的主要预测任务是判断个人的年收入是否超过50,000美元。此外,数据集还包括FNlwgt(最终权重),该权重用于调整数据以匹配美国非机构化平民人口的独立估计值。这些权重通过三个独立的控制集进行计算,包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。
数据用途概述:
该数据集适用于收入预测、机器学习模型训练、数据增强等多个场景。研究人员可以使用此数据集来开发和评估预测模型,特别是在收入预测领域。教育者可以利用该数据集进行机器学习教学和相关研究演示。通过使用CTGAN生成的数据,可以增加数据集的多样性和样本量,从而提高模型的泛化能力和准确性。
描述fnlwgt(最终权重):
CPS(Current Population Survey)文件中的权重被调整以匹配美国非机构化平民人口的独立估计值。这些估计值由人口调查局每月准备。我们使用三个控制集进行加权程序,包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。通过六次循环调整,最终权重确保符合所有使用的控制集。权重的计算是通过创建指定社会经济特征的加权统计来进行的。具有相似人口统计特征的人应具有相似的权重。需要注意的是,由于CPS样本实际上是由51个州的样本组成,每个样本都有自己的选择概率,上述陈述仅在州内适用。