大规模软件缺陷预测模型与历史数据集-2011-syedzubair

大规模软件缺陷预测模型与历史数据集-2011-syedzubair 数据来源:互联网公开数据 标签:软件缺陷预测,模型,数据集,代码度量,历史记录,软件工程,编程,维护,质量保证

数据概述: 本数据集包含多个软件系统的模型和度量指标,以及它们的历史记录。该数据集的目标是让人们能够比较不同的缺陷预测方法,并评估新的技术是否优于现有的方法。具体来说,数据集包含了运行预测技术所需的数据,这些技术基于源代码度量、历史度量和过程信息(CVS日志数据),并计算预测性能,通过将其结果与实际缺陷数量进行比较。

数据集涵盖四个软件系统:Eclipse JDT Core、Eclipse PDE UI、Equinox Framework 和 Lucene Mylyn。对于每个系统,数据集提供了以下信息:

  • 每两周的系统版本数据,通过inFusion工具解析为对象导向模型,以mse文件提供;
  • 从CVS变更日志中提取的历史信息,包括重建的变更记录及其与模型类的链接;
  • 基于CVS变更日志数据计算的15个度量指标,适用于每个系统的类;
  • 每个类在每个版本中的17个源代码度量指标(CK + 11个面向对象的度量指标);
  • 每个类的发布后缺陷数量统计,缺陷按照严重程度和优先级分类。

数据用途概述: 利用该数据集,可以计算或使用多个度量指标,创建广义线性回归模型,以预测每个类的发布后缺陷数量。这些模型的性能可以通过将预测结果与数据集提供的实际缺陷数量进行比较来评估。具体可以使用计算或设计的预测指标包括:

  • 变更度量指标(来自CVS变更日志),由Moser等人提出;
  • CK度量指标,由Basili等人提出;
  • 面向对象度量指标(例如,方法数量、属性数量等);
  • 前缺陷数量度量指标,由Kim等人提出;
  • 代码变更复杂度度量指标,由Hassan提出;
  • CK和面向对象度量指标的波动度量指标,由D'Ambros等人提出;
  • CK和面向对象度量指标的熵度量指标,由D'Ambros等人提出。

所有列出的缺陷预测技术及其在本数据集上的应用,在论文《大规模比较缺陷预测方法》中进行了详细描述,作者为Marco D'Ambros, Michele Lanza 和 Romain Robbes,发表于MSR 2010(第七届IEEE软件仓库挖掘会议),2010年。论文链接:https://bug.inf.usi.ch/index.php

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.88 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。