美国人口普查收入预测数据集USCensusIncomePredictionDataset-fabiookina
数据来源:互联网公开数据
标签:人口统计, 收入预测, 机器学习, 分类模型, 经济分析, 统计分析, 数据挖掘, 公民收入
数据概述:
该数据集包含来自美国人口普查的数据,记录了美国居民的个人属性以及收入情况,用于预测个人年收入是否超过5万美元。主要特征如下:
时间跨度:数据未明确标注时间,通常被视为某个特定年份的横截面数据。
地理范围:数据覆盖美国境内居民。
数据维度:数据集包括多个维度,涵盖人口统计学和社会经济学方面的信息:
Id: 样本的唯一标识符。
age:年龄。
workclass:工作类别。
fnlwgt:人口普查中使用的权重,代表个人在总体中的权重。
education:受教育程度。
education.num:受教育程度的数字编码。
marital.status:婚姻状况。
occupation:职业。
relationship:与家庭成员的关系。
race:种族。
sex:性别。
capital.gain:资本收益。
capital.loss:资本损失。
hours.per.week:每周工作小时数。
native.country:原籍国。
income:年收入,分为“50K”两类,为目标变量。
数据格式:CSV格式,包含train_data.csv和test_data.csv两个文件,前者包含目标变量,后者不包含。数据经过预处理,便于分析。
该数据集适合用于收入预测、人口统计分析和机器学习模型的构建与评估。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于人口统计学、经济学和机器学习交叉领域的学术研究,如收入影响因素分析、社会经济不平等研究等。
行业应用:可以为金融、保险、人力资源等行业提供数据支持,例如信用风险评估、人才招聘、薪酬管理等。
决策支持:支持政府部门的政策制定,例如社会保障政策的优化、贫困人口援助计划的制定等。
教育和培训:作为数据科学、机器学习课程的教学案例,帮助学生理解分类问题、特征工程和模型评估。
此数据集特别适合用于探索影响个人收入的因素,构建收入预测模型,并评估不同特征对预测结果的影响。