数据集

SanberCode数据科学0620最终项目数据集-2020-lewihansel

SanberCode数据科学0620最终项目数据集-2020-lewihansel 数据来源：互联网公开数据标签：数据科学,机器学习,薪资预测,培训集,测试集,提交文件,数据预处理,预测建模

数据概述：本数据集包含用于SanberCode数据科学第0620期最终项目的三个文件。train.csv文件包含用于训练模型的数据集，其中包含标签列。test.csv文件包含没有标签的测试数据集，用户需要根据给定的规则预测每个样本的'Gaji'（薪资）并添加到该文件中。此外，用户还需创建一个新的数据集，包含'id'和'Gaji'两列，其中'id'从test.csv中获取，'Gaji'为预测值，此新数据集将作为提交文件。sampleSubmission.csv文件展示了正确的提交格式。

数据用途概述：该数据集主要用于机器学习模型的训练和测试，尤其是在薪资预测任务中。train.csv文件可用于模型训练，以便识别影响薪资的因素；test.csv文件可用于模型评估和预测；sampleSubmission.csv文件提供了一个正确的文件格式参考，帮助用户正确提交预测结果。此数据集适合用于培训课程、实际项目和学术研究，以提高数据科学和机器学习技能。

数据字段说明： - id: 每个样本的唯一标识符 - Umur: 每个样本的年龄 - Kelas Pekerja: 每个样本所属的工人阶级类别 - Berat Akhir: 基于人口、种族和性别在16岁以上人群中的累积值，来自具有相似人口统计特征区域的样本将具有相同的最终权重 - Pendidikan: 每个样本的最高教育水平 - Jmlh Tahun Pendidikan: 每个样本接受教育的年限 - Status Perkawinan: 每个样本的婚姻状况 - Pekerjaan: 每个样本当前的工作 - Jenis Kelamin: 每个样本的性别 - Keuntungan Kapital: 样本出售所有资产时获得的收益 - Kerugian Kapital: 样本出售所有资产时遭受的损失 - Jam per Minggu: 每个样本每周的工作小时数 - Gaji: 每个样本的薪资，分为“5jt”（超过500万）两类

数据与资源

versions_20250411010628.zipZIP
0.59 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.59 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。