数据集概述
该数据集包含470,925条NPM生态系统拉取请求数据及预训练随机森林模型,围绕技术与社会因素对拉取请求质量的影响展开,为预测拉取请求接受情况提供数据与模型支持,对应ESEM-2020相关研究论文。
文件详解
- 文件名称:Curated_Pull_Request_Data.csv
- 文件格式:CSV
- 字段示例:creator_submitted(创建者提交数)、creator_accepted(创建者接受数)、repo_submitted(仓库提交数)、repo_accepted(仓库接受数)、dependency(依赖情况)、age(拉取请求时长)、comments(评论数)、review_comments(评审评论数)、commits(提交次数)、additions(新增代码行数)、deletions(删除代码行数)、changed_files(修改文件数)、contain_issue_fix(是否包含问题修复)
- 文件名称:PRMODEL.Rdata
- 文件格式:Rdata
- 内容:预训练的随机森林模型,用于预测拉取请求接受情况
- 文件名称:snippet.R
- 文件格式:R
- 内容:创建随机森林模型的代码片段
- 文件名称:description.pdf
- 文件格式:PDF
- 内容:数据集变量描述文档
适用场景
- 软件工程研究:分析技术与社会因素对NPM生态系统拉取请求质量的影响
- 机器学习应用:基于拉取请求数据训练与验证接受预测模型
- 开源社区治理:探究开源项目中拉取请求的接受规律与优化方向
- 实证软件工程:复现或扩展ESEM-2020论文相关研究结论