代码异味数据集_DACOS

数据集概述

该数据集提供三类代码异味(多面抽象、复杂方法、长参数列表)的标注代码片段,包含人工标注的主观片段数据集及更大规模的明确良性或异味的代码片段集,通过SQL文件和源码压缩包形式存储。

文件详解

  • DACOSMain.sql:SQL格式文件,为主数据集,包含annotations(用户标注记录)、sample(待标注样本)、class_metrics(类指标)、method_metrics(方法指标)等表。
  • DACOSExtended.sql:SQL格式文件,为扩展数据集,通过指标范围筛选出明确良性或异味的样本,含entry表(样本按异味分类,用ID标识:1多面抽象存在、2长参数列表存在、3复杂方法存在等)。
  • Files.zip:压缩文件,包含所有源代码文件。
  • contributors.txt:TXT格式文件,记录协助标注超50个样本的贡献者名单。

适用场景

  • 代码质量分析:用于研究三类代码异味的特征与识别方法
  • 软件维护研究:分析代码异味对软件可维护性的影响
  • 机器学习模型训练:作为训练数据开发代码异味自动检测模型
  • 软件工程教育:辅助讲解代码异味概念与识别实践
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 133.31 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。