代码缺陷检测机器学习数据集CodeDefectDetectionMachineLearningDataset-zheungyik2015
数据来源:互联网公开数据
标签:代码缺陷, 机器学习, 静态分析, 软件工程, 缺陷预测, 特征工程, 代码度量, 二分类
数据概述:
该数据集包含来自软件代码的静态分析结果,用于训练和评估代码缺陷检测模型。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态代码分析的快照。
地理范围:数据来源未明确,但适用于任何软件开发环境中的代码缺陷分析。
数据维度:数据集包含多个特征,涵盖代码的各种属性,例如:
mFolder:代码所属的文件夹或模块;
hs1-hs5:可能代表代码的某些结构化特征,具体含义待考证;
cfgDepth, cfgPredNum, cfgSuceNum:控制流图(CFG)相关的度量指标;
numOutCtrlDeps, outCtrlDepMutantTypes, numInCtrlDeps, inCtrlDepMutantTypes:控制依赖相关的度量指标;
astParentsNumOutCtrlDeps, astParentsNumInCtrlDeps, astParentsNumTieDeps:抽象语法树(AST)中父节点相关的度量指标;
typeAstParent, typeStatementBB, astParentMutantType:AST节点的类型信息;
astChildHasIdentifier, astChildHasLiteral, astChildHasOperator:AST子节点的信息;
dataTypesOfOperands, dataTypeOfValue:操作数和值的类型信息;
numOutDataDeps, numTieDeps:数据依赖相关的度量指标;
complexity:代码复杂度度量;
astNumParents, astParentsNumOutDataDeps, astParentsNumInDataDeps:AST父节点相关度量指标;
outDataDepMutantTypes, inDataDepMutantTypes, inDataDepMutantTypes1:数据依赖突变类型;
numInDataDeps:输入数据依赖数量;
result:二分类标签,指示代码是否存在缺陷(0或1)。
数据格式:CSV格式,便于数据分析和模型训练。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于软件工程、机器学习和人工智能交叉领域的学术研究,如代码缺陷预测、软件质量评估等。
行业应用:为软件开发行业提供数据支持,尤其是在代码静态分析工具的开发、代码质量评估、缺陷修复优先级排序等方面。
决策支持:支持软件开发团队在项目早期识别潜在的代码缺陷,优化代码审查流程,降低软件维护成本。
教育和培训:作为软件工程、机器学习等相关课程的实训数据,帮助学生和研究人员理解代码缺陷预测方法。
此数据集特别适合用于探索代码特征与缺陷之间的关系,构建和评估代码缺陷检测模型,提高软件质量。