数据集概述
本数据集包含研究“软件数据集的构建与更新:实证评估”的脚本与数据,聚焦代码指标软件数据集的时间有效性,涉及Qualitas Corpus 20130901r版本、currentSample、qualitasUpdated三类数据集,涵盖代码指标、仓库元数据及复制工具包,用于分析软件数据集的时间有效性及采样策略。
文件详解
- replication_package.zip
- 文件格式:ZIP
- 字段映射介绍:包含研究的脚本与复制工具,含Jupyter Notebook(Experiment.ipynb)、主脚本(main.py)、依赖文件(requirements.txt)、Github令牌配置文件(./token)、Sourcemeter工具压缩包(./Sourcemeter/tool目录下)及Qualitas Corpus指标生成脚本,支持数据集的复制与重新生成。
- datasets.zip
- 文件格式:ZIP
- 字段映射介绍:包含三个子文件夹(qualitas、currentSample、qualitasUpdated),每个文件夹含三类文件:class.csv(类级代码指标)、method.csv(方法级代码指标)、sample.csv(项目仓库元数据);qualitas对应Qualitas Corpus 20130901r版本数据,currentSample为近期采样数据,qualitasUpdated为更新后的Qualitas数据集。
数据来源
研究“Building and updating software datasets: an empirical assessment”的代码库
适用场景
- 软件数据集时间有效性分析: 评估不同软件数据集(如Qualitas Corpus旧版本与更新版本)的代码指标时间有效性,分析数据集时效性对研究结果的影响。
- 采样策略实证研究: 对比不同采样策略(如currentSample与qualitasUpdated的采样方法)在软件数据集构建中的效果与可靠性。
- 代码指标分析: 利用class.csv和method.csv中的类级、方法级代码指标,开展软件质量、维护性等相关研究。
- 研究复制与验证: 通过replication_package.zip中的工具与脚本,复制研究过程,验证软件数据集构建与更新的方法论。
- 软件项目元数据分析: 基于sample.csv中的仓库元数据,分析软件项目的基本特征与分布规律。