SanberCode数据科学0620最终项目数据集-2020-lewihansel
数据来源:互联网公开数据
标签:数据科学,机器学习,薪资预测,培训集,测试集,提交文件,数据预处理,预测建模
数据概述:
本数据集包含用于SanberCode数据科学第0620期最终项目的三个文件。train.csv文件包含用于训练模型的数据集,其中包含标签列。test.csv文件包含没有标签的测试数据集,用户需要根据给定的规则预测每个样本的'Gaji'(薪资)并添加到该文件中。此外,用户还需创建一个新的数据集,包含'id'和'Gaji'两列,其中'id'从test.csv中获取,'Gaji'为预测值,此新数据集将作为提交文件。sampleSubmission.csv文件展示了正确的提交格式。
数据用途概述:
该数据集主要用于机器学习模型的训练和测试,尤其是在薪资预测任务中。train.csv文件可用于模型训练,以便识别影响薪资的因素;test.csv文件可用于模型评估和预测;sampleSubmission.csv文件提供了一个正确的文件格式参考,帮助用户正确提交预测结果。此数据集适合用于培训课程、实际项目和学术研究,以提高数据科学和机器学习技能。
数据字段说明:
- id: 每个样本的唯一标识符
- Umur: 每个样本的年龄
- Kelas Pekerja: 每个样本所属的工人阶级类别
- Berat Akhir: 基于人口、种族和性别在16岁以上人群中的累积值,来自具有相似人口统计特征区域的样本将具有相同的最终权重
- Pendidikan: 每个样本的最高教育水平
- Jmlh Tahun Pendidikan: 每个样本接受教育的年限
- Status Perkawinan: 每个样本的婚姻状况
- Pekerjaan: 每个样本当前的工作
- Jenis Kelamin: 每个样本的性别
- Keuntungan Kapital: 样本出售所有资产时获得的收益
- Kerugian Kapital: 样本出售所有资产时遭受的损失
- Jam per Minggu: 每个样本每周的工作小时数
- Gaji: 每个样本的薪资,分为“5jt”(超过500万)两类