美国1994年人口普查收入预测数据集-jaynadkarni

美国1994年人口普查收入预测数据集-jaynadkarni

数据来源:互联网公开数据 标签:人口普查,收入预测,成人数据,美国,经济分析,教育水平,职业,年龄,性别,种族,收入差距

数据概述: 本数据集包含了1994年美国人口普查中个人的相关信息,目的是预测个人的年收入是否超过50,000美元。数据集包含人口统计和就业信息,如年龄、教育水平、职业和每周工作小时数等。

数据集特征: - Age(年龄):连续变量,表示个人的年龄。 - Workclass(工作类型):分类变量,表示个人的工作类型(如Private, Self-emp-not-inc等)。 - Fnlwgt(最终权重):连续变量,表示个人的最终权重。 - Education(教育程度):分类变量,表示个人的教育程度(如HS-grad, Some-college等)。 - Educational-num(教育编号):连续变量,表示个人的教育编号。 - Marital-status(婚姻状况):分类变量,表示个人的婚姻状况(如Married-civ-spouse, Never-married等)。 - Occupation(职业):分类变量,表示个人的职业(如Machine-op-inspct, Adm-clerical等)。 - Relationship(关系):分类变量,表示个人的关系(如Husband, Wife等)。 - Race(种族):分类变量,表示个人的种族(如White, Black等)。 - Gender(性别):分类变量,表示个人的性别(如Male, Female)。 - Capital-gain(资本收益):连续变量,表示个人的资本收益。 - Capital-loss(资本损失):连续变量,表示个人的资本损失。 - Hours-per-week(每周工作小时数):连续变量,表示个人的每周工作小时数。 - Native-country(原籍国家):分类变量,表示个人的原籍国家(如United-States, Mexico等)。 - Income(收入):二元变量,表示个人的年收入是否超过50,000美元(50K)。

数据集描述: 数据集包含48,842个实例,包含连续变量和分类变量的混合。数据大部分完整,但在Native-country特征中存在一些缺失值。Income变量的分布不平衡,大约76%的实例收入为50K。

数据用途概述: 该数据集适用于基于人口统计和就业信息预测个人收入水平、分析人口统计因素与收入水平之间的关系、识别影响高收入或低收入的关键因素等多种场景。研究者可以利用此数据集进行收入预测模型的构建、社会经济因素的研究等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.6 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。