MLCQ工业相关代码异味数据集

数据集概述

该数据集包含约一万五千个代码样本,由具有专业经验的软件开发者基于行业相关的当代Java开源项目评审创建,旨在研究开发者背景与代码异味感知的关系,相比基于旧代码的数据集具有更持久的相关性。

文件详解

  • 代码样本数据文件:
  • MLCQCodeSmellSamples.xlsx:Excel格式,包含代码样本的代码异味标注信息,字段示例有id、reviewer_id、sample_id、smell(异味类型)、severity(严重程度)、repository(代码仓库)等
  • MLCQCodeSmellSamples.csv:CSV格式,内容与上述Excel文件一致,字段分隔符为分号
  • 开发者调查数据文件:
  • MLCQCodeSmellDevelopersSurvey.xlsx:Excel格式,包含参与评审开发者的调查数据,涉及授权声明等信息
  • MLCQCodeSmellDevelopersSurvey.csv:CSV格式,内容与上述Excel文件一致
  • 附录文档:
  • MadeyskiLewowskiMLCQAppendix.pdf:PDF格式,可能包含数据集的补充说明或相关附录内容

适用场景

  • 软件质量研究:分析行业相关Java项目中的代码异味类型与分布特征
  • 开发者行为研究:探究开发者背景(如经验、技术栈)与代码异味感知的关联性
  • 代码审查工具优化:为代码异味检测工具的训练与验证提供真实行业场景数据
  • 软件工程教育:作为教学案例,帮助学生理解实际项目中的代码质量问题
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 9.26 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。