SanberCode数据科学0620最终项目数据集-2020-lewihansel

SanberCode数据科学0620最终项目数据集-2020-lewihansel 数据来源:互联网公开数据 标签:数据科学,机器学习,薪资预测,培训集,测试集,提交文件,数据预处理,预测建模

数据概述: 本数据集包含用于SanberCode数据科学第0620期最终项目的三个文件。train.csv文件包含用于训练模型的数据集,其中包含标签列。test.csv文件包含没有标签的测试数据集,用户需要根据给定的规则预测每个样本的'Gaji'(薪资)并添加到该文件中。此外,用户还需创建一个新的数据集,包含'id'和'Gaji'两列,其中'id'从test.csv中获取,'Gaji'为预测值,此新数据集将作为提交文件。sampleSubmission.csv文件展示了正确的提交格式。

数据用途概述: 该数据集主要用于机器学习模型的训练和测试,尤其是在薪资预测任务中。train.csv文件可用于模型训练,以便识别影响薪资的因素;test.csv文件可用于模型评估和预测;sampleSubmission.csv文件提供了一个正确的文件格式参考,帮助用户正确提交预测结果。此数据集适合用于培训课程、实际项目和学术研究,以提高数据科学和机器学习技能。

数据字段说明: - id: 每个样本的唯一标识符 - Umur: 每个样本的年龄 - Kelas Pekerja: 每个样本所属的工人阶级类别 - Berat Akhir: 基于人口、种族和性别在16岁以上人群中的累积值,来自具有相似人口统计特征区域的样本将具有相同的最终权重 - Pendidikan: 每个样本的最高教育水平 - Jmlh Tahun Pendidikan: 每个样本接受教育的年限 - Status Perkawinan: 每个样本的婚姻状况 - Pekerjaan: 每个样本当前的工作 - Jenis Kelamin: 每个样本的性别 - Keuntungan Kapital: 样本出售所有资产时获得的收益 - Kerugian Kapital: 样本出售所有资产时遭受的损失 - Jam per Minggu: 每个样本每周的工作小时数 - Gaji: 每个样本的薪资,分为“5jt”(超过500万)两类

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 06:08 (UTC)
创建于 四月 23, 2025, 06:07 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。