AST_Based_流行代码仓库文件指标与问题数量数据集

数据集概述

本数据集包含流行代码仓库的抽象语法树(AST)分析衍生指标,以及与文件相关的问题数量。数据以JSON格式存储,结构为仓库名称下嵌套文件名称,每个文件包含文件级指标、类级指标及问题计数,为代码仓库的文件质量与问题关联分析提供结构化数据。

文件详解

  • 文件名称:dataset.json
  • 文件格式:JSON
  • 字段映射介绍:采用层级嵌套结构,顶层为仓库名称(repo_name);仓库名称下为文件名称(file_name);每个文件包含文件级指标(file_level_metrics)、类级指标(class: {class_level_metrics})及问题计数(bug count)。

适用场景

  • 代码质量分析:通过AST指标与问题数量的关联,识别影响代码仓库问题率的文件特征。
  • 软件开发维护研究:分析流行代码仓库中文件级/类级指标对问题产生的影响机制。
  • 代码仓库健康度评估:构建基于AST指标的代码仓库健康度评估模型。
  • 软件缺陷预测:利用文件指标与问题数量的关系,开发缺陷预测工具或算法。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.11 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。