数据集概述
本数据集为复现包,包含研究SonarQube问题对开发速度影响的回顾性队列研究所需的全部Python与R源代码,涵盖数据收集、预处理及分析流程,支持研究结果的复现验证。
文件详解
- 安装说明文件:
- INSTALL: 无指定格式,含工具安装说明及Python依赖要求
- 图表文件(Figures目录):
- 包含研究设计、DAG图、速度计算示例、数据流程等图表(PDF相关)
- Jupyter笔记本文件:
- apacheGithub.ipynb: 下载Apache项目元数据
- collectionMerge.ipynb: 合并清洗数据
- commitCrawler.ipynb: 爬取GitHub提交数据
- issueCrawlerGithub.ipynb: 爬取GitHub问题数据
- jiraCrawler.ipynb: 爬取Jira问题数据
- sonarQubeCrawler.ipynb: 爬取SonarQube数据
- Python代码文件:
- aggregateExp.py: 聚合项目经验数据
- calculate_velocity.py: 计算开发速度
- clone_projects.py: 克隆项目仓库
- commons.py: 存储全局路径变量
- contributors_api.py: 提取协作者信息
- format_data_for_analysis.py: 格式化时间数据
- get_commits.py: 获取仓库提交数据
- get_confounders_from_repos.py: 获取混杂变量
- get_developer_experience.py: 量化开发者经验
- mergeAttributes.py: 合并属性数据
- repo_experience.py: 聚合项目开发者经验
- R代码文件:
- confounder-matching_EMSE.R: 混杂变量匹配
- crudeanalysis_EMSE.R: 原始分析
- data-transformation_EMSE.R: 多重共线性检查
- descanalysis_EMSE.R: 描述性分析
- regressionanalysis_EMSE.R: 统计调整分析
- 数据集(Datasets目录):
- 含研究分析所需的全部数据文件
适用场景
- 软件工程研究: 复现SonarQube对开发速度影响的队列研究
- 数据科学复现: 验证回顾性队列研究的数据处理与分析流程
- 开发效率分析: 研究代码质量工具对开发速度的实际影响
- 混杂变量控制: 学习软件工程项目中混杂变量的处理方法