代码评估工具指标数据集
数据来源:互联网公开数据
标签:代码评估,机器学习,回归模型,业绩预测,静态指标,编程技能
数据概述:
本数据集旨在创建一个准确预测职场表现的代码技能评估工具。数据集包含了开发者在尝试代码评估测试时所编写的代码的静态指标,并利用这些指标预测其职场表现。数据集包括任务名称、开发者名称、任务难度、预设的正确性、计算、稳健性和内存总分等静态指标,以及开发者是否提交代码、编译是否成功、任务得分情况、花费时间比例和备注信息等动态指标。此外,数据集还包含了每个任务会话的唯一标识符、任务提交后的开发者评论、代码仓库标识符、代码提交前后的静态指标变化等详细信息。这些指标有助于分析开发者的编程习惯、代码质量和工作效率。
数据用途概述:
该数据集适用于训练机器学习回归模型,以预测开发者的职场表现。研究人员和工程师可以使用此数据集来开发一个预测模型,帮助雇主评估开发者的潜在生产力和工作表现。此外,该数据集也可用于教育培训,帮助学习者了解如何通过编程评估预测职场表现。
举例:
本数据集中的一个例子包括任务名称为"Task1"的记录,开发者编号为"Dev5",该任务的难度为"中等",预设的正确性得分为85分,计算得分为90分,稳健性得分为80分,内存总得分为75分,开发者提交了代码并且编译成功,最终得分占比为88%,花费了任务总时间的50%,备注信息显示该开发者部分完成了任务。任务会话的唯一标识符为"TS123",开发者提交后的评论为"代码逻辑清晰,但部分功能有待优化"。代码仓库标识符为"Repo456",代码提交前后的静态指标变化包括代码行数的变化量为20行,圈复杂度的变化量为3,文件大小的变化量为10KB,方法数量的变化量为2,数据抽象耦合复杂度的变化量为1,扇出的变化量为4,逻辑代码行数的变化量为25行,新增代码行数为20行,开发者的总编码努力为50单位,不可维护的编码努力为10单位,总编码努力为6小时,不可维护的编码努力为1小时,测试会话的唯一标识符为"TST789",提交的代码文件类型为".java"。这些指标可以用来训练机器学习模型,从而预测该开发者的平均每日生产力,假设预测结果为"4"小时,说明该开发者可能成为优秀员工。