数据集

美国1994年人口普查收入预测增强数据集-mathurinache

美国1994年人口普查收入预测增强数据集-mathurinache 数据来源：互联网公开数据标签：人口普查,收入预测,增强数据,机器学习,数据生成,CTGAN

数据概述：本数据集基于1994年人口普查局数据库，由Ronny Kohavi和Barry Becker提取。数据集通过以下条件筛选出了一组较为干净的记录：(年龄大于16岁) && (年收入大于100美元) && (最终权重大于1) && (每周工作小时数大于0)。该数据集的主要预测任务是判断个人的年收入是否超过50,000美元。此外，数据集还包括FNlwgt（最终权重），该权重用于调整数据以匹配美国非机构化平民人口的独立估计值。这些权重通过三个独立的控制集进行计算，包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。

数据用途概述：该数据集适用于收入预测、机器学习模型训练、数据增强等多个场景。研究人员可以使用此数据集来开发和评估预测模型，特别是在收入预测领域。教育者可以利用该数据集进行机器学习教学和相关研究演示。通过使用CTGAN生成的数据，可以增加数据集的多样性和样本量，从而提高模型的泛化能力和准确性。

描述fnlwgt（最终权重）： CPS（Current Population Survey）文件中的权重被调整以匹配美国非机构化平民人口的独立估计值。这些估计值由人口调查局每月准备。我们使用三个控制集进行加权程序，包括按州的单个单元估计、按年龄和性别分的西班牙裔来源控制、按种族、年龄和性别分的控制。通过六次循环调整，最终权重确保符合所有使用的控制集。权重的计算是通过创建指定社会经济特征的加权统计来进行的。具有相似人口统计特征的人应具有相似的权重。需要注意的是，由于CPS样本实际上是由51个州的样本组成，每个样本都有自己的选择概率，上述陈述仅在州内适用。

数据与资源

versions_20250411105258.zipZIP
65.26 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	65.26 MiB
最后更新	2025年5月30日
创建于	2025年5月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

美国1994年人口普查收入预测增强数据集-mathurinache

数据与资源

附加信息

注册成功！