代码缺陷检测机器学习数据集CodeDefectDetectionMachineLearningDataset-zheungyik2015

代码缺陷检测机器学习数据集CodeDefectDetectionMachineLearningDataset-zheungyik2015

数据来源:互联网公开数据

标签:代码缺陷, 机器学习, 静态分析, 软件工程, 缺陷预测, 特征工程, 代码度量, 二分类

数据概述: 该数据集包含来自软件代码的静态分析结果,用于训练和评估代码缺陷检测模型。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态代码分析的快照。 地理范围:数据来源未明确,但适用于任何软件开发环境中的代码缺陷分析。 数据维度:数据集包含多个特征,涵盖代码的各种属性,例如: mFolder:代码所属的文件夹或模块; hs1-hs5:可能代表代码的某些结构化特征,具体含义待考证; cfgDepth, cfgPredNum, cfgSuceNum:控制流图(CFG)相关的度量指标; numOutCtrlDeps, outCtrlDepMutantTypes, numInCtrlDeps, inCtrlDepMutantTypes:控制依赖相关的度量指标; astParentsNumOutCtrlDeps, astParentsNumInCtrlDeps, astParentsNumTieDeps:抽象语法树(AST)中父节点相关的度量指标; typeAstParent, typeStatementBB, astParentMutantType:AST节点的类型信息; astChildHasIdentifier, astChildHasLiteral, astChildHasOperator:AST子节点的信息; dataTypesOfOperands, dataTypeOfValue:操作数和值的类型信息; numOutDataDeps, numTieDeps:数据依赖相关的度量指标; complexity:代码复杂度度量; astNumParents, astParentsNumOutDataDeps, astParentsNumInDataDeps:AST父节点相关度量指标; outDataDepMutantTypes, inDataDepMutantTypes, inDataDepMutantTypes1:数据依赖突变类型; numInDataDeps:输入数据依赖数量; result:二分类标签,指示代码是否存在缺陷(0或1)。 数据格式:CSV格式,便于数据分析和模型训练。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于软件工程、机器学习和人工智能交叉领域的学术研究,如代码缺陷预测、软件质量评估等。 行业应用:为软件开发行业提供数据支持,尤其是在代码静态分析工具的开发、代码质量评估、缺陷修复优先级排序等方面。 决策支持:支持软件开发团队在项目早期识别潜在的代码缺陷,优化代码审查流程,降低软件维护成本。 教育和培训:作为软件工程、机器学习等相关课程的实训数据,帮助学生和研究人员理解代码缺陷预测方法。 此数据集特别适合用于探索代码特征与缺陷之间的关系,构建和评估代码缺陷检测模型,提高软件质量。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.8 MiB
最后更新 2025年4月29日
创建于 2025年4月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。