基于深度学习的软件缺陷报告自动分类数据集-GoogleChromium-缺陷修复者预测-多版本

基于深度学习的软件缺陷报告自动分类数据集-GoogleChromium-缺陷修复者预测-多版本 数据来源:互联网公开数据 标签:软件工程,缺陷管理,机器学习,自然语言处理,深度学习,Bug报告,Google Chromium,分类,开发者分配 数据概述: 本数据集源于一项名为“DeepTriage”的研究,旨在利用深度学习技术实现对软件缺陷报告的自动分类,从而预测最有可能修复该缺陷的开发者。数据集聚焦于Google Chromium项目,包含多版本训练集和测试集,用于训练和评估不同分类模型。

训练集包含四个版本:classifier_data_0.csv(类别出现次数无下限,数据最不平衡)、classifier_data_5.csv(每个类别至少出现5次)、classifier_data_10.csv(每个类别至少出现10次)、classifier_data_20.csv(每个类别至少出现20次,数据最平衡)。测试集为deep_data.csv。数据集中,类别对应于缺陷报告的“所有者”,即负责修复该缺陷的开发者。

数据集中的数据通常包括缺陷报告的标题和详细描述,是进行自动缺陷分类任务的基础。

数据用途概述: 该数据集主要用于软件工程领域,特别是缺陷管理和自动化。研究人员可利用此数据进行以下方面的研究: 1. 评估不同机器学习算法在缺陷报告分类任务上的表现。 2. 探索基于深度学习的缺陷分类模型,如论文中提出的DBRNN-A模型。 3. 研究不同数据预处理方法对分类结果的影响。 4. 比较不同训练集版本对模型性能的影响,评估数据平衡性对分类效果的影响。 5. 开发和优化自动缺陷分配系统,提高软件开发效率。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 202.97 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。