数据集概述
本数据集为CI/CD流水线演进与重构的定性定量研究配套数据,包含初始项目集、候选提交列表、人工验证样本等结构化数据文件,以及分析脚本和分类文档,支持复现研究中关于CI/CD基础设施使用及重构的分析结果。
文件详解
该数据集包含多个文件,具体说明如下:
- 数据文件 (.csv格式,共7个):
- StartingProjectsSet.csv:记录初始8000个项目的基础信息,包含分支数、星标数、大小及使用的CI/CD基础设施列表
- ListOfCandidateCommitsForRQ1.csv:列出每个候选提交的编程语言、项目名称、GitHub提交URL及涉及变更的CI/CD文件列表
- FirstRoundManuallyValidatedSample.csv:首轮人工验证样本数据,含语言、项目名、提交URL及验证标签信息
- SecondRoundManuallyValidatedSample.csv:次轮人工验证样本数据,结构与首轮样本一致
- SaturationManuallyValidatedSample.csv:饱和度人工验证样本数据
- rq2-aggregated.csv:RQ2相关的聚合处理数据
- rq1-rq2-mapping.csv:RQ1与RQ2数据的映射关系表
- 代码文件 (.r格式,共1个):
- rq2-script.R:用于RQ2分析的数据处理脚本
- 文档文件 (.txt和.pdf格式,共2个):
- README.txt:数据集说明文档
- FirstVersionTaxonomy.pdf:初始版本分类体系文档
适用场景
- CI/CD研究:分析开源项目中CI/CD基础设施的使用分布与演进趋势
- 软件工程实证研究:验证CI/CD流水线重构的触发因素与实施模式
- 数据复现:支持相关学术论文的实验结果复现与方法验证
- 工具开发:为CI/CD重构检测工具提供标注数据集与评估基准