ApacheJIT即时缺陷预测大型数据集

数据集概述

本数据集为即时缺陷预测任务提供大规模数据支持,包含4个子集文件,涵盖提交标识符、提交指标等特征及缺陷标记。同时提供数据集构建的Python脚本、环境配置文件和操作说明,适用于模型训练与评估。

文件详解

  • 数据集文件(位于dataset/目录下):
  • apachejit_total.csv:完整数据集,包含所有提交数据,字段包括提交标识符、提交指标特征及标记是否引入缺陷的"buggy"列
  • apachejit_train.csv:训练子集,为2003-2016年的平衡数据,适用于对类别不平衡敏感的模型
  • apachejit_test_large.csv:测试子集,为最后3年的非平衡数据,模拟真实场景下的模型评估
  • apachejit_test_small.csv:小型测试子集,为最后3年的非平衡数据,是apachejit_test_large.csv的精简版本
  • 脚本与配置文件:
  • requirements.txt:Python环境依赖包列表,要求Python 3.8及以上版本
  • src/目录:Python脚本,负责GitHub搜索、提交收集等数据构建步骤
  • notebooks/目录:Python笔记本,用于关联缺陷报告与修复提交、过滤数据等流程

适用场景

  • 软件缺陷预测研究:用于即时缺陷预测模型的训练、验证与性能评估
  • 软件工程数据分析:分析提交特征与缺陷引入的关联关系
  • 机器学习模型优化:针对类别不平衡问题的模型改进研究
  • 软件质量保障:探索工业级软件项目的缺陷预防策略
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 78.94 MiB
最后更新 2025年12月18日
创建于 2025年12月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。