SoftwareDataset_软件数据集时间有效性评估数据

数据集概述

本数据集包含研究“软件数据集的构建与更新:实证评估”的脚本与数据,聚焦代码指标软件数据集的时间有效性,涉及Qualitas Corpus 20130901r版本、currentSample、qualitasUpdated三类数据集,涵盖代码指标、仓库元数据及复制工具包,用于分析软件数据集的时间有效性及采样策略。

文件详解

  • replication_package.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含研究的脚本与复制工具,含Jupyter Notebook(Experiment.ipynb)、主脚本(main.py)、依赖文件(requirements.txt)、Github令牌配置文件(./token)、Sourcemeter工具压缩包(./Sourcemeter/tool目录下)及Qualitas Corpus指标生成脚本,支持数据集的复制与重新生成。
  • datasets.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含三个子文件夹(qualitas、currentSample、qualitasUpdated),每个文件夹含三类文件:class.csv(类级代码指标)、method.csv(方法级代码指标)、sample.csv(项目仓库元数据);qualitas对应Qualitas Corpus 20130901r版本数据,currentSample为近期采样数据,qualitasUpdated为更新后的Qualitas数据集。

数据来源

研究“Building and updating software datasets: an empirical assessment”的代码库

适用场景

  • 软件数据集时间有效性分析: 评估不同软件数据集(如Qualitas Corpus旧版本与更新版本)的代码指标时间有效性,分析数据集时效性对研究结果的影响。
  • 采样策略实证研究: 对比不同采样策略(如currentSample与qualitasUpdated的采样方法)在软件数据集构建中的效果与可靠性。
  • 代码指标分析: 利用class.csv和method.csv中的类级、方法级代码指标,开展软件质量、维护性等相关研究。
  • 研究复制与验证: 通过replication_package.zip中的工具与脚本,复制研究过程,验证软件数据集构建与更新的方法论。
  • 软件项目元数据分析: 基于sample.csv中的仓库元数据,分析软件项目的基本特征与分布规律。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 829.63 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。