开源系统代码异味及其搭配大型实验数据集

数据集概述

本数据集包含从Qualitas Corpus(QC)获取的含代码异味的类数据,按QC版本和领域分类存储,同时提供PCA分析结果。数据依据检测工具数量的不同阈值(25%、50%、75%)区分文件,以0/1标识类中是否存在代码异味,支持代码异味相关研究。

文件详解

该数据集为一个ZIP压缩包,内部包含多个子文件夹和文件,具体说明如下: - 文件夹: - all: 包含QC 20130901版本(92个系统)的数据 - domains: 包含QC 20111026版本更新至20130901最新发布的76个系统数据 - pca: 包含PCA分析结果,含常规PCA(R prcomp()函数生成)和二进制数据logisticPCA(logisticPCA()函数生成) - 通用文件命名规则: - 包含QC基础版本信息、最小检测器数量阈值(25、50、75,对应25%、50%、75%检测器识别) - 包含领域缩写(app、css、dev、dgdv)或关键词ALL(所有领域) - 文件内容中"1"表示存在代码异味,"0"表示不存在 - 辅助文件: - smell detectors.csv: 记录各工具检测的代码异味类型信息

数据来源

Qualitas Corpus(QC)

适用场景

  • 代码质量分析:研究不同阈值下代码异味的分布规律与检测工具一致性
  • 软件维护研究:分析代码异味搭配模式对开源系统维护性的影响
  • 机器学习应用:基于代码异味数据训练代码质量预测模型
  • 检测工具评估:对比不同代码异味检测工具的性能与结果差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.85 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。