npm生态系统中高频使用的包特征研究数据

数据集概述

本数据集围绕npm生态系统中高使用量开源软件包的特征展开研究,包含118名JavaScript开发者的调研数据及2427个包的量化分析数据,涉及下载量、GitHub星标、文档规模等关键因素,用于验证开发者对高使用量包的认知并通过回归分析识别核心影响因素。

文件详解

  • 核心数据文件(CSV格式,共15个)
  • github_metadata_for_sampled_packages.csv:包含包名、GitHub节点ID、星标数、许可证等元数据字段
  • github_contributors_count.csv:记录包名、仓库所有者及贡献者数量
  • sample_merged_data.csv:整合后的样本数据文件
  • sampled_packages.csv:纳入研究的2427个包的列表
  • dependants_count_more_100.csv:依赖者数量超100的包数据
  • npms_for_sampled_packages.csv:npms平台的包评分数据
  • survey_responses.csv:118名开发者的调研问卷数据
  • snyk_vulnerabilities_for_sampled_packages.csv:Snyk平台检测的包漏洞数据
  • 压缩文件(ZIP格式,1个)
  • scripts.zip:数据处理相关的脚本文件压缩包

数据来源

论文“Dataset: What are the characteristics of highly-used packages? A case study on the npm ecosystem”

适用场景

  • 开源软件包质量评估: 分析下载量、星标数等因素对包使用量的影响,辅助开发者选择可靠包
  • 开发者行为研究: 通过调研数据理解开发者选择开源包的决策因素
  • 软件生态系统分析: 探究npm生态系统中包的流行机制与维护特征
  • 漏洞风险管理: 结合漏洞数据研究高使用量包的安全状况
  • 开源社区贡献分析: 基于贡献者数量数据研究包的社区活跃度与可持续性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 218.07 MiB
最后更新 2026年2月2日
创建于 2026年2月2日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。