代码缺陷检测数据集CodeDefectDetection-zheungyik2015
数据来源:互联网公开数据
标签:代码分析, 缺陷检测, 软件工程, 机器学习, 数据挖掘, 静态分析, 复杂性度量, 二元分类
数据概述:
该数据集包含来自软件项目的代码特征数据,记录了代码片段的多种属性,用于训练和评估代码缺陷检测模型。主要特征如下:
时间跨度:数据未明确时间属性,可视为静态代码特征的集合。
地理范围:数据来源未明确,但适用于各类软件项目。
数据维度:数据集包括多个特征,如:hs1, hs2, hs3, hs4, hs5(可能代表哈希值或其他代码标识)、cfgDepth(控制流图深度)、cfgPredNum(控制流图预测节点数量)、cfgSuceNum(控制流图后续节点数量)、numOutCtrlDeps(输出控制依赖数量)、outCtrlDepMutantTypes(输出控制依赖变异类型)、numInCtrlDeps(输入控制依赖数量)、inCtrlDepMutantTypes(输入控制依赖变异类型)、astParentsNumOutCtrlDeps (抽象语法树父节点输出控制依赖数量)、astParentsNumInCtrlDeps (抽象语法树父节点输入控制依赖数量)、astParentsNumTieDeps (抽象语法树父节点绑定依赖数量)、typeAstParent(抽象语法树父节点类型)、typeStatementBB(基本块语句类型)、astParentMutantType(抽象语法树父节点变异类型)、astChildHasIdentifier (抽象语法树子节点是否包含标识符)、astChildHasLiteral (抽象语法树子节点是否包含字面量)、astChildHasOperator (抽象语法树子节点是否包含操作符)、dataTypesOfOperands(操作数的数据类型)、dataTypeOfValue(值的的数据类型)、numOutDataDeps(输出数据依赖数量)、numTieDeps(绑定依赖数量)、complexity(代码复杂度)、astNumParents(抽象语法树父节点数量)、astParentsNumOutDataDeps (抽象语法树父节点输出数据依赖数量)、astParentsNumInDataDeps (抽象语法树父节点输入数据依赖数量)、outDataDepMutantTypes(输出数据依赖变异类型)、inDataDepMutantTypes(输入数据依赖变异类型)、numInDataDeps(输入数据依赖数量)、result(代码缺陷标签,0或1)。
数据格式:CSV格式,包含多个文件,文件名包含如"encoded_data"、"testEncoded"、"trainEncoded"等,方便数据处理和模型训练。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于软件工程、人工智能和机器学习交叉领域的学术研究,例如代码缺陷预测、代码质量评估、代码相似性分析等。
行业应用:为软件开发企业提供数据支持,可用于构建自动化代码审查工具、缺陷预测系统和代码质量监控平台。
决策支持:支持软件开发团队在项目管理、资源分配和风险评估等方面的决策,优化开发流程。
教育和培训:作为软件工程、机器学习等课程的实训素材,帮助学生和研究人员深入理解代码缺陷检测方法。
此数据集特别适合用于探索代码特征与缺陷之间的关联,帮助用户构建准确的代码缺陷预测模型,提高软件质量和开发效率。