基于深度学习的软件缺陷报告自动分类数据集-GoogleChromium-缺陷修复者预测-多版本
数据来源:互联网公开数据
标签:软件工程,缺陷管理,机器学习,自然语言处理,深度学习,Bug报告,Google Chromium,分类,开发者分配
数据概述:
本数据集源于一项名为“DeepTriage”的研究,旨在利用深度学习技术实现对软件缺陷报告的自动分类,从而预测最有可能修复该缺陷的开发者。数据集聚焦于Google Chromium项目,包含多版本训练集和测试集,用于训练和评估不同分类模型。
训练集包含四个版本:classifier_data_0.csv(类别出现次数无下限,数据最不平衡)、classifier_data_5.csv(每个类别至少出现5次)、classifier_data_10.csv(每个类别至少出现10次)、classifier_data_20.csv(每个类别至少出现20次,数据最平衡)。测试集为deep_data.csv。数据集中,类别对应于缺陷报告的“所有者”,即负责修复该缺陷的开发者。
数据集中的数据通常包括缺陷报告的标题和详细描述,是进行自动缺陷分类任务的基础。
数据用途概述:
该数据集主要用于软件工程领域,特别是缺陷管理和自动化。研究人员可利用此数据进行以下方面的研究:
1. 评估不同机器学习算法在缺陷报告分类任务上的表现。
2. 探索基于深度学习的缺陷分类模型,如论文中提出的DBRNN-A模型。
3. 研究不同数据预处理方法对分类结果的影响。
4. 比较不同训练集版本对模型性能的影响,评估数据平衡性对分类效果的影响。
5. 开发和优化自动缺陷分配系统,提高软件开发效率。