数据集

代码缺陷检测机器学习数据集CodeDefectDetectionMachineLearningDataset-zheungyik2015

数据来源：互联网公开数据

标签：代码缺陷, 机器学习, 静态分析, 软件工程, 缺陷预测, 特征工程, 代码度量, 二分类

数据概述：该数据集包含来自软件代码的静态分析结果，用于训练和评估代码缺陷检测模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态代码分析的快照。地理范围：数据来源未明确，但适用于任何软件开发环境中的代码缺陷分析。数据维度：数据集包含多个特征，涵盖代码的各种属性，例如： mFolder：代码所属的文件夹或模块； hs1-hs5：可能代表代码的某些结构化特征，具体含义待考证； cfgDepth, cfgPredNum, cfgSuceNum：控制流图（CFG）相关的度量指标； numOutCtrlDeps, outCtrlDepMutantTypes, numInCtrlDeps, inCtrlDepMutantTypes：控制依赖相关的度量指标； astParentsNumOutCtrlDeps, astParentsNumInCtrlDeps, astParentsNumTieDeps：抽象语法树（AST）中父节点相关的度量指标； typeAstParent, typeStatementBB, astParentMutantType：AST节点的类型信息； astChildHasIdentifier, astChildHasLiteral, astChildHasOperator：AST子节点的信息； dataTypesOfOperands, dataTypeOfValue：操作数和值的类型信息； numOutDataDeps, numTieDeps：数据依赖相关的度量指标； complexity：代码复杂度度量； astNumParents, astParentsNumOutDataDeps, astParentsNumInDataDeps：AST父节点相关度量指标； outDataDepMutantTypes, inDataDepMutantTypes, inDataDepMutantTypes1：数据依赖突变类型； numInDataDeps：输入数据依赖数量； result：二分类标签，指示代码是否存在缺陷（0或1）。数据格式：CSV格式，便于数据分析和模型训练。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于软件工程、机器学习和人工智能交叉领域的学术研究，如代码缺陷预测、软件质量评估等。行业应用：为软件开发行业提供数据支持，尤其是在代码静态分析工具的开发、代码质量评估、缺陷修复优先级排序等方面。决策支持：支持软件开发团队在项目早期识别潜在的代码缺陷，优化代码审查流程，降低软件维护成本。教育和培训：作为软件工程、机器学习等相关课程的实训数据，帮助学生和研究人员理解代码缺陷预测方法。此数据集特别适合用于探索代码特征与缺陷之间的关系，构建和评估代码缺陷检测模型，提高软件质量。

数据与资源

versions_20250412071538.zipZIP
0.80 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.8 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

代码缺陷检测机器学习数据集CodeDefectDetectionMachineLearningDataset-zheungyik2015

数据与资源

附加信息

注册成功！