基于机器学习的技术债务优先级排序数据集

数据集概述

该数据集围绕技术债务优先级排序展开,通过GitHub上Java开源项目的2616份调查响应构建,包含"是否偿还""3分类""优先级"三种标签策略的数据,用于训练预测技术债务偿还决策的机器学习模型。

文件详解

  • 文档文件(PDF格式):
  • research_web_consent-final.pdf:研究网络知情同意书,记录研究参与的伦理规范与知情同意内容
  • email-template-anonymized.pdf:匿名化的邮件模板,用于调查数据收集的沟通
  • 数据文件(CSV格式):
  • types.csv:包含技术债务类型相关数据,字段包括type(类型ID)、rule(规则描述)、count(数量)、l1-l6(层级分布)、severity(严重程度)等
  • dataset.csv:核心数据集,字段包括answer(调查响应)、id(唯一标识)、severity(严重程度)、line(代码行)、effort(修复工作量)、tags(标签)、tdtype(技术债务类型)、rule_name(规则名称)、plugin_name(插件名称)、scope(范围)、priority(优先级)、component_uuid(组件UUID)、component_kee(组件标识)、component_long_name(组件全称)、component_scope(组件范围)、component_qualifier(组件限定符)、project_uuid(项目UUID)、project_kee(项目标识)、project_na(项目名称前缀)等

数据来源

GitHub上的Java开源软件项目

适用场景

  • 软件工程研究:分析技术债务优先级排序的关键影响因素
  • 机器学习模型训练:构建预测技术债务偿还决策的模型
  • 开源项目管理:优化技术债务修复资源分配策略
  • 代码质量分析:探究技术债务严重程度与修复优先级的关联
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.28 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。