成人普查收入职业与结果数据集-matinmahmoudi
数据来源:互联网公开数据
标签:职业,收入,决策树,数据特征,机器学习,数据预处理,教育,社会经济
数据概述:
本数据集包含有关个人职业和收入的合成数据,适用于学习决策树算法。数据集包含混合的分类和数值特征,有助于理解决策树如何处理不同类型的数据并捕捉特征之间的关系及其与目标变量(收入)的关系。此外,该数据集还提供了处理缺失值的机会,这在现实世界的数据中是常见的问题。
这不是原始数据集。原始数据集可以在Kaggle上找到:Adult Census Income。
数据特征:
- 年龄:个人的年龄。数据类型:数值
- 工作类别:个人就业的分类。类别:Private, Self-emp-not-inc, Local-gov 等
- 最终权重:最终权重,表示抽样权重的数值。数据类型:数值
- 教育:个人的教育水平。类别:Bachelors, HS-grad, 11th, Masters, 9th 等
- 教育年限:完成的教育年限。数据类型:数值
- 婚姻状况:个人的婚姻状况。类别:Married-civ-spouse, Divorced, Never-married, Separated, Widowed 等
- 职业:个人的职业类型。类别:Tech-support, Craft-repair, Other-service, Sales, Exec-managerial 等
- 关系:个人在家庭中的关系状态。类别:Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried
- 种族:个人的种族。类别:White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black
- 性别:个人的性别。类别:Male, Female
- 资本收益:资本收益,数值。数据类型:数值
- 资本损失:资本损失,数值。数据类型:数值
- 每周工作小时数:每周工作小时数。数据类型:数值
- 出生国家:个人的出生国家。类别:United-States, Cambodia, England, Puerto-Rico, Canada, Germany 等
- 收入(标签):收入水平,分类个人收入是否超过或低于$50,000。类别:>50K, <=50K
数据用途概述:
该数据集适用于决策树算法的学习和应用,包括分类预测模型的构建。研究人员和学习者可以使用此数据集来理解如何处理混合特征数据类型,以及如何在实际场景中处理缺失值。此外,该数据集也适合用于社会经济研究和数据分析课程中的教育用途。