数据集概述
本数据集围绕npm生态系统中高使用量开源软件包的特征展开研究,包含118名JavaScript开发者的调研数据及2427个包的量化分析数据,涉及下载量、GitHub星标、文档规模等关键因素,用于验证开发者对高使用量包的认知并通过回归分析识别核心影响因素。
文件详解
- 核心数据文件(CSV格式,共15个)
github_metadata_for_sampled_packages.csv:包含包名、GitHub节点ID、星标数、许可证等元数据字段
github_contributors_count.csv:记录包名、仓库所有者及贡献者数量
sample_merged_data.csv:整合后的样本数据文件
sampled_packages.csv:纳入研究的2427个包的列表
dependants_count_more_100.csv:依赖者数量超100的包数据
npms_for_sampled_packages.csv:npms平台的包评分数据
survey_responses.csv:118名开发者的调研问卷数据
snyk_vulnerabilities_for_sampled_packages.csv:Snyk平台检测的包漏洞数据
- 压缩文件(ZIP格式,1个)
scripts.zip:数据处理相关的脚本文件压缩包
数据来源
论文“Dataset: What are the characteristics of highly-used packages? A case study on the npm ecosystem”
适用场景
- 开源软件包质量评估: 分析下载量、星标数等因素对包使用量的影响,辅助开发者选择可靠包
- 开发者行为研究: 通过调研数据理解开发者选择开源包的决策因素
- 软件生态系统分析: 探究npm生态系统中包的流行机制与维护特征
- 漏洞风险管理: 结合漏洞数据研究高使用量包的安全状况
- 开源社区贡献分析: 基于贡献者数量数据研究包的社区活跃度与可持续性