美国人口普查收入预测数据集USCensusIncomePredictionDataset-fabiookina

美国人口普查收入预测数据集USCensusIncomePredictionDataset-fabiookina

数据来源:互联网公开数据

标签:人口统计, 收入预测, 机器学习, 分类模型, 经济分析, 统计分析, 数据挖掘, 公民收入

数据概述: 该数据集包含来自美国人口普查的数据,记录了美国居民的个人属性以及收入情况,用于预测个人年收入是否超过5万美元。主要特征如下: 时间跨度:数据未明确标注时间,通常被视为某个特定年份的横截面数据。 地理范围:数据覆盖美国境内居民。 数据维度:数据集包括多个维度,涵盖人口统计学和社会经济学方面的信息: Id: 样本的唯一标识符。 age:年龄。 workclass:工作类别。 fnlwgt:人口普查中使用的权重,代表个人在总体中的权重。 education:受教育程度。 education.num:受教育程度的数字编码。 marital.status:婚姻状况。 occupation:职业。 relationship:与家庭成员的关系。 race:种族。 sex:性别。 capital.gain:资本收益。 capital.loss:资本损失。 hours.per.week:每周工作小时数。 native.country:原籍国。 income:年收入,分为“50K”两类,为目标变量。 数据格式:CSV格式,包含train_data.csv和test_data.csv两个文件,前者包含目标变量,后者不包含。数据经过预处理,便于分析。 该数据集适合用于收入预测、人口统计分析和机器学习模型的构建与评估。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于人口统计学、经济学和机器学习交叉领域的学术研究,如收入影响因素分析、社会经济不平等研究等。 行业应用:可以为金融、保险、人力资源等行业提供数据支持,例如信用风险评估、人才招聘、薪酬管理等。 决策支持:支持政府部门的政策制定,例如社会保障政策的优化、贫困人口援助计划的制定等。 教育和培训:作为数据科学、机器学习课程的教学案例,帮助学生理解分类问题、特征工程和模型评估。 此数据集特别适合用于探索影响个人收入的因素,构建收入预测模型,并评估不同特征对预测结果的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.71 MiB
最后更新 2025年5月19日
创建于 2025年5月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。