NPM生态系统拉取请求接受预测数据集2020

数据集概述

该数据集包含470,925条NPM生态系统拉取请求数据及预训练随机森林模型,围绕技术与社会因素对拉取请求质量的影响展开,为预测拉取请求接受情况提供数据与模型支持,对应ESEM-2020相关研究论文。

文件详解

  • 文件名称:Curated_Pull_Request_Data.csv
  • 文件格式:CSV
  • 字段示例:creator_submitted(创建者提交数)、creator_accepted(创建者接受数)、repo_submitted(仓库提交数)、repo_accepted(仓库接受数)、dependency(依赖情况)、age(拉取请求时长)、comments(评论数)、review_comments(评审评论数)、commits(提交次数)、additions(新增代码行数)、deletions(删除代码行数)、changed_files(修改文件数)、contain_issue_fix(是否包含问题修复)
  • 文件名称:PRMODEL.Rdata
  • 文件格式:Rdata
  • 内容:预训练的随机森林模型,用于预测拉取请求接受情况
  • 文件名称:snippet.R
  • 文件格式:R
  • 内容:创建随机森林模型的代码片段
  • 文件名称:description.pdf
  • 文件格式:PDF
  • 内容:数据集变量描述文档

适用场景

  • 软件工程研究:分析技术与社会因素对NPM生态系统拉取请求质量的影响
  • 机器学习应用:基于拉取请求数据训练与验证接受预测模型
  • 开源社区治理:探究开源项目中拉取请求的接受规律与优化方向
  • 实证软件工程:复现或扩展ESEM-2020论文相关研究结论
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。