合成员工出勤评分数据集
数据来源:互联网公开数据
标签:员工出勤,时间序列分析,假期影响,周末排除,请假模拟,人力资源分析
数据概述:
本数据集包含为模拟现实世界员工工作时间表变化而生成的合成出勤记录,覆盖了2023年1月1日至2024年12月12日期间100名员工的数据。数据集设计用于支持员工出勤行为的时间序列分析研究,以及研究假期、周末和请假日对工作模式的影响。
数据用途概述:
该数据集适用于时间序列模式分析、研究日历事件对出勤的影响、开发数据预处理技术等多种场景。研究人员可以利用此数据探索不同员工群体的出勤模式随时间的变化情况;人力资源专业人士可以研究假期和预定请假日对整体出勤趋势的影响;数据爱好者可以实验处理人力资源和劳动力分析中缺失或异常的时间序列数据的方法。
数据集描述:
数据集包含多个CSV文件,记录了数据生成和预处理的不同阶段:
原始出勤数据:
健康出勤:
模拟员工具有“健康”工作模式的出勤记录。这些记录通过在标准工作时间(大约从09:00到17:00)上应用小的、现实的变动生成。
不良出勤:
模拟员工具有“不良”或更不规律工作模式的出勤记录。在这种版本中,应用了更大的到达和离开时间变动,以模拟不一致的行为。
预处理步骤:
周末排除:
原始出勤记录经过过滤,去除了所有周末(周六和周日),确保只考虑典型的工日。
公共假日修剪:
从数据集中移除了2023年和2024年的一系列指定公共假日(例如,杜鲁图满月节,泰米尔泰诗节,圣周五,卫塞节,圣诞节等)的出勤记录。这一步有助于将标准工作模式与其他受国家或文化事件影响的天数区分开。
请假模拟:
为每个员工,引入了每月0到5天的随机请假天数。在这些请假天数,出勤值标记为0。这些0值作为占位符,表示员工缺席的天数。
数据格式:
宽格式CSV:
每个CSV文件以宽格式结构化。第一列代表日期(格式为YYYY-MM-DD),每个后续列(例如,“Person_0”,“Person_1”,…“Person_99”)代表该天每位员工的出勤记录。
时间表示:
出勤时间以HH:MM格式表示(例如,“09:13”或“16:47”)。对于员工请假的天数,单元格值为0。
数据生成过程:
数据集的创建过程包括:
合成数据生成:
定义了一个基线工作时间表(09:00到17:00),并应用随机偏移以生成现实的员工到达和离开时间变化。创建了两个不同的组:
健康组:小偏移和低标准差以模拟一致的行为。
不良组:大偏移和高标准差以模拟不规律的行为。
日历基础过滤:
周末:
移除了对应周末的日期,以专注于常规工作日。
公共假日:
使用了2023年和2024年的一系列预定义公共假日来过滤出数据集中的假日日期。
请假模拟:
为每个员工和每月,选择0到5天的随机工作日作为请假日。在这些天,出勤条目设置为0表示缺席。请假模拟过程确保数据集反映了员工可能不会在所有预定工作日工作的现实场景。
最终输出文件:
最终处理后的数据集以多个CSV文件的形式提供,反映了不同的阶段:
去除了周末和公共假日的出勤记录。
标记了请假天数的出勤记录。