美国1994年人口普查收入预测增强数据集-mathurinache

美国1994年人口普查收入预测增强数据集-mathurinache 数据来源:互联网公开数据 标签:人口普查,收入预测,增强数据,机器学习,数据生成,CTGAN

数据概述: 本数据集基于1994年人口普查局数据库,由Ronny Kohavi和Barry Becker提取。数据集通过以下条件筛选出了一组较为干净的记录:(年龄大于16岁) && (年收入大于100美元) && (最终权重大于1) && (每周工作小时数大于0)。该数据集的主要预测任务是判断个人的年收入是否超过50,000美元。此外,数据集还包括FNlwgt(最终权重),该权重用于调整数据以匹配美国非机构化平民人口的独立估计值。这些权重通过三个独立的控制集进行计算,包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。

数据用途概述: 该数据集适用于收入预测、机器学习模型训练、数据增强等多个场景。研究人员可以使用此数据集来开发和评估预测模型,特别是在收入预测领域。教育者可以利用该数据集进行机器学习教学和相关研究演示。通过使用CTGAN生成的数据,可以增加数据集的多样性和样本量,从而提高模型的泛化能力和准确性。

描述fnlwgt(最终权重): CPS(Current Population Survey)文件中的权重被调整以匹配美国非机构化平民人口的独立估计值。这些估计值由人口调查局每月准备。我们使用三个控制集进行加权程序,包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。通过六次循环调整,最终权重确保符合所有使用的控制集。权重的计算是通过创建指定社会经济特征的加权统计来进行的。具有相似人口统计特征的人应具有相似的权重。需要注意的是,由于CPS样本实际上是由51个州的样本组成,每个样本都有自己的选择概率,上述陈述仅在州内适用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 65.26 MiB
最后更新 2025年5月30日
创建于 2025年5月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。