数据集

代码复杂度与缺陷预测数据集CodeComplexityandDefectPredictionDataset-tembalake

数据来源：互联网公开数据

标签：代码分析，软件工程，缺陷预测，代码复杂度，静态分析，机器学习，软件质量，数据挖掘

数据概述：该数据集包含从软件项目中提取的代码度量数据，用于分析代码复杂度和预测潜在的软件缺陷。主要特征如下：时间跨度：数据未明确标注时间，可视为静态代码度量数据。地理范围：数据来源未明确，可视为全球范围内的软件项目。数据维度：数据集包含多个关键指标，包括但不限于： - loc: 代码行数 (Lines of Code) - v(g): 圈复杂度 (Cyclomatic Complexity) - ev(g): 基本圈复杂度 (Essential Cyclomatic Complexity) - iv(g): 模块设计复杂度 (Module Design Complexity) - n: 词汇量 (Vocabulary) - v: 程序的体积 (Program Volume) - l: 程序长度 (Program Length) - d: 程序的难度 (Program Difficulty) - i: 程序的智能 (Program Intelligence) - e: 程序的努力程度 (Program Effort) - b: 缺陷密度 (Defect Density) - t: 预计的编程时间 (Estimated Time to Program) - lOCode: 代码行数 - lOComment: 注释行数 - lOBlank: 空白行数 - locCodeAndComment: 代码和注释行数总和 - uniq_Op: 唯一操作符数量 - uniq_Opnd: 唯一操作数数量 - total_Op: 总操作符数量 - total_Opnd: 总操作数数量 - branchCount: 分支语句数量数据格式：CSV格式，包含训练集 (traincsv)、测试集 (testcsv) 和提交示例 (sample_submissioncsv) 三个文件，便于数据分析和模型构建。数据已进行初步处理，方便直接用于机器学习任务。该数据集适合用于代码质量评估、缺陷预测、软件可靠性分析和软件维护成本预测等研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于软件工程、计算机科学等领域的学术研究，如基于代码度量指标的缺陷预测模型研究、代码复杂度和软件可靠性之间的关系研究等。行业应用：为软件开发公司提供数据支持，用于评估代码质量、优化代码结构、预测潜在缺陷，从而降低软件维护成本，提高软件质量。决策支持：支持软件项目管理中的决策制定，如项目风险评估、资源分配、开发进度预测等。教育和培训：作为软件工程、数据科学等课程的实训材料，帮助学生和研究人员深入理解代码复杂度与软件缺陷之间的关系，掌握基于数据的软件质量评估方法。此数据集特别适合用于探索代码度量指标与软件缺陷之间的关联，帮助用户构建预测模型，优化软件开发流程，提高软件质量。

数据与资源

versions_1741594734.zipZIP
6.87 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	6.87 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

代码复杂度与缺陷预测数据集CodeComplexityandDefectPredictionDataset-tembalake

数据与资源

附加信息

注册成功！