软件代码缺陷预测数据集SoftwareCodeDefectPredictionDataset-faisalmohammad
数据来源:互联网公开数据
标签:代码度量, 软件工程, 缺陷预测, 机器学习, 静态分析, 代码质量, 数据挖掘, 软件测试
数据概述:
该数据集包含来自开源软件项目的代码度量数据,记录了代码的各种属性指标,用于预测软件代码中潜在的缺陷。主要特征如下:
时间跨度:数据未明确时间跨度,可视为对特定版本或代码快照的分析结果。
地理范围:数据来源于不同的开源软件项目,未限定地理范围。
数据维度:数据集包括多个代码度量指标,如类的圈复杂度、代码行数、方法数量、属性数量、继承深度、扇入扇出等。具体字段包括:ck_oo_numberOfPrivateMethods, LDHH_lcom, LDHH_fanIn, numberOfNonTrivialBugsFoundUntil, WCHU_numberOfPublicAttributes, WCHU_numberOfAttributes, CvsWEntropy, LDHH_numberOfPublicMethods, WCHU_fanIn, LDHH_numberOfPrivateAttributes, CvsEntropy, LDHH_numberOfPublicAttributes, WCHU_numberOfPrivateMethods, WCHU_numberOfMethods, ck_oo_numberOfPublicAttributes, ck_oo_noc, numberOfCriticalBugsFoundUntil, ck_oo_wmc, LDHH_numberOfPrivateMethods, WCHU_numberOfPrivateAttributes, CvsLogEntropy, WCHU_noc, LDHH_numberOfAttributesInherited, WCHU_wmc, ck_oo_fanOut, ck_oo_numberOfLinesOfCode, ck_oo_numberOfAttributesInherited, ck_oo_numberOfMethods, ck_oo_dit, ck_oo_fanIn, LDHH_noc, WCHU_dit, ck_oo_lcom, WCHU_numberOfAttributesInherited, ck_oo_rfc, LDHH_rfc等。
数据格式:CSV格式,包含多个文件,如PDEcsv-1、MLcsv-1、EQcsv-1、JDTcsv-1、LCcsv等,便于数据分析和建模。
来源信息:数据来源于软件工程领域的研究,旨在通过代码度量指标预测软件缺陷。该数据集适用于各种缺陷预测模型和代码质量评估。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于软件工程领域的学术研究,例如代码度量指标与缺陷之间的关系分析,不同机器学习模型在缺陷预测任务中的表现对比等。
行业应用:为软件开发团队提供数据支持,用于代码质量评估、缺陷预测、风险管理和测试策略优化,从而提升软件质量和开发效率。
决策支持:支持软件项目的决策制定,帮助管理者识别高风险代码模块,优化资源分配,降低软件发布后的维护成本。
教育和培训:作为软件工程、软件测试、机器学习等课程的辅助材料,帮助学生和研究人员理解代码度量、缺陷预测等相关概念。
此数据集特别适合用于探索代码度量指标与软件缺陷之间的内在联系,帮助用户构建预测模型,改进软件开发流程,最终实现高质量软件的交付。