数据集

美国1994年人口普查收入预测数据集-jaynadkarni

数据来源：互联网公开数据标签：人口普查,收入预测,成人数据,美国,经济分析,教育水平,职业,年龄,性别,种族,收入差距

数据概述：本数据集包含了1994年美国人口普查中个人的相关信息，目的是预测个人的年收入是否超过50,000美元。数据集包含人口统计和就业信息，如年龄、教育水平、职业和每周工作小时数等。

数据集特征： - Age（年龄）：连续变量，表示个人的年龄。 - Workclass（工作类型）：分类变量，表示个人的工作类型（如Private, Self-emp-not-inc等）。 - Fnlwgt（最终权重）：连续变量，表示个人的最终权重。 - Education（教育程度）：分类变量，表示个人的教育程度（如HS-grad, Some-college等）。 - Educational-num（教育编号）：连续变量，表示个人的教育编号。 - Marital-status（婚姻状况）：分类变量，表示个人的婚姻状况（如Married-civ-spouse, Never-married等）。 - Occupation（职业）：分类变量，表示个人的职业（如Machine-op-inspct, Adm-clerical等）。 - Relationship（关系）：分类变量，表示个人的关系（如Husband, Wife等）。 - Race（种族）：分类变量，表示个人的种族（如White, Black等）。 - Gender（性别）：分类变量，表示个人的性别（如Male, Female）。 - Capital-gain（资本收益）：连续变量，表示个人的资本收益。 - Capital-loss（资本损失）：连续变量，表示个人的资本损失。 - Hours-per-week（每周工作小时数）：连续变量，表示个人的每周工作小时数。 - Native-country（原籍国家）：分类变量，表示个人的原籍国家（如United-States, Mexico等）。 - Income（收入）：二元变量，表示个人的年收入是否超过50,000美元（50K）。

数据集描述：数据集包含48,842个实例，包含连续变量和分类变量的混合。数据大部分完整，但在Native-country特征中存在一些缺失值。Income变量的分布不平衡，大约76%的实例收入为50K。

数据用途概述：该数据集适用于基于人口统计和就业信息预测个人收入水平、分析人口统计因素与收入水平之间的关系、识别影响高收入或低收入的关键因素等多种场景。研究者可以利用此数据集进行收入预测模型的构建、社会经济因素的研究等。

数据与资源

versions_20250413091908.zipZIP
0.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.6 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

美国1994年人口普查收入预测数据集-jaynadkarni

数据与资源

附加信息

注册成功！