代码缺陷检测数据集CodeDefectDetection-zheungyik2015

代码缺陷检测数据集CodeDefectDetection-zheungyik2015

数据来源:互联网公开数据

标签:代码分析, 缺陷检测, 软件工程, 机器学习, 数据挖掘, 静态分析, 复杂性度量, 二元分类

数据概述: 该数据集包含来自软件项目的代码特征数据,记录了代码片段的多种属性,用于训练和评估代码缺陷检测模型。主要特征如下: 时间跨度:数据未明确时间属性,可视为静态代码特征的集合。 地理范围:数据来源未明确,但适用于各类软件项目。 数据维度:数据集包括多个特征,如:hs1, hs2, hs3, hs4, hs5(可能代表哈希值或其他代码标识)、cfgDepth(控制流图深度)、cfgPredNum(控制流图预测节点数量)、cfgSuceNum(控制流图后续节点数量)、numOutCtrlDeps(输出控制依赖数量)、outCtrlDepMutantTypes(输出控制依赖变异类型)、numInCtrlDeps(输入控制依赖数量)、inCtrlDepMutantTypes(输入控制依赖变异类型)、astParentsNumOutCtrlDeps (抽象语法树父节点输出控制依赖数量)、astParentsNumInCtrlDeps (抽象语法树父节点输入控制依赖数量)、astParentsNumTieDeps (抽象语法树父节点绑定依赖数量)、typeAstParent(抽象语法树父节点类型)、typeStatementBB(基本块语句类型)、astParentMutantType(抽象语法树父节点变异类型)、astChildHasIdentifier (抽象语法树子节点是否包含标识符)、astChildHasLiteral (抽象语法树子节点是否包含字面量)、astChildHasOperator (抽象语法树子节点是否包含操作符)、dataTypesOfOperands(操作数的数据类型)、dataTypeOfValue(值的的数据类型)、numOutDataDeps(输出数据依赖数量)、numTieDeps(绑定依赖数量)、complexity(代码复杂度)、astNumParents(抽象语法树父节点数量)、astParentsNumOutDataDeps (抽象语法树父节点输出数据依赖数量)、astParentsNumInDataDeps (抽象语法树父节点输入数据依赖数量)、outDataDepMutantTypes(输出数据依赖变异类型)、inDataDepMutantTypes(输入数据依赖变异类型)、numInDataDeps(输入数据依赖数量)、result(代码缺陷标签,0或1)。 数据格式:CSV格式,包含多个文件,文件名包含如"encoded_data"、"testEncoded"、"trainEncoded"等,方便数据处理和模型训练。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于软件工程、人工智能和机器学习交叉领域的学术研究,例如代码缺陷预测、代码质量评估、代码相似性分析等。 行业应用:为软件开发企业提供数据支持,可用于构建自动化代码审查工具、缺陷预测系统和代码质量监控平台。 决策支持:支持软件开发团队在项目管理、资源分配和风险评估等方面的决策,优化开发流程。 教育和培训:作为软件工程、机器学习等课程的实训素材,帮助学生和研究人员深入理解代码缺陷检测方法。 此数据集特别适合用于探索代码特征与缺陷之间的关联,帮助用户构建准确的代码缺陷预测模型,提高软件质量和开发效率。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.9 MiB
最后更新 2025年5月1日
创建于 2025年5月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。