美国1994年成年人人口普查数据集
数据来源:互联网公开数据
标签:人口普查, 社会研究, 收入预测, 多变量数据, 分类任务, 成人数据, 经济分析, 社会学研究
数据概述:
本数据集基于美国1994年的人口普查数据,由Barry Becker提取并整理。数据集包含48,842条记录,涵盖了14个属性,涉及人口、收入、教育、职业、家庭关系等多个方面。数据经过清洗,仅保留了满足以下条件的记录:年龄大于16岁(AAGE>16)、年收入超过100美元(AGI>100)、样本权重大于1(AFNLWGT>1)以及每周工作时间大于0小时(HRSWK>0)。数据集的主要目标是预测一个人的年收入是否超过50,000美元。
数据用途概述:
该数据集适用于多种研究和分析场景,特别是在社会学、经济学和数据分析领域。主要用途包括:
1. 收入预测:通过分类模型预测个人年收入是否超过50,000美元,适用于经济研究和政策制定。
2. 社会特征分析:研究不同社会特征(如教育水平、职业、种族等)对收入的影响,帮助理解社会不平等现象。
3. 分类任务研究:作为多变量分类任务的数据集,可用于机器学习算法的开发和验证。
4. 教育和研究:为研究人员、学生和数据科学家提供一个标准的数据集,用于学习和实践数据挖掘和机器学习技术。
5. 政策制定支持:通过分析收入分布和影响因素,为政府制定经济政策和福利计划提供数据支持。
数据字段定义:
以下是数据集中各字段的详细说明:
- 50K, <=50K:目标变量,表示个人年收入是否超过50,000美元。
- age:连续值,表示个人年龄。
- workclass:分类值,表示工作类别,包括Private、Self-emp-not-inc、Self-emp-inc、Federal-gov、Local-gov、State-gov、Without-pay、Never-worked等。
- fnlwgt:连续值,表示家庭权重,用于调整样本代表性。
- education:分类值,表示最高教育程度,包括Bachelors、Some-college、HS-grad等。
- education-num:连续值,表示教育年限。
- marital-status:分类值,表示婚姻状况,包括Married-civ-spouse、Divorced、Never-married等。
- occupation:分类值,表示职业类别,包括Tech-support、Craft-repair、Sales等。
- relationship:分类值,表示家庭关系,包括Wife、Own-child、Husband等。
- race:分类值,表示种族,包括White、Asian-Pac-Islander、Black等。
- sex:分类值,表示性别,包括Female和Male。
- capital-gain:连续值,表示资本收益。
- capital-loss:连续值,表示资本损失。
- hours-per-week:连续值,表示每周工作小时数。
- native-country:分类值,表示出生国家,包括United-States、Cambodia、England等。
数据特征:
- 数据集为多变量数据,包含连续值和分类值。
- 数据集主要适用于分类任务,特别是二分类问题(收入是否超过50,000美元)。
- 数据经过清洗,确保了较高的数据质量和可分析性。
- 数据集涵盖了广泛的社会和经济特征,提供了丰富的研究维度。
数据来源与许可:
该数据集来源于1994年美国人口普查数据库,由Barry Becker提取并整理。数据集遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可协议,允许用户在适当署名的情况下自由分享和改编数据。
引用信息:
- DOI:10.24432/C5XW20
- 附加信息:更多关于数据集的详细描述和背景信息,可参考此链接:http://cseweb.ucsd.edu/classes/sp15/cse190-c/reports/sp15/048.pdf
使用场景:
- 学术研究:用于社会学、经济学和数据科学领域的研究,特别是收入不平等、教育与收入关系等主题。
- 机器学习:作为标准数据集,用于开发和测试分类算法。
- 政策分析:为政府和非政府组织提供数据支持,评估和制定与收入相关的政策。
- 教育:用于教学和培训,帮助学生理解数据挖掘和机器学习的基本概念。
通过本数据集,研究者可以深入探究影响个人收入的各种社会和经济因素,为政策制定、学术研究和数据分析提供有力的支持。