开源完整性保障复制包

数据集概述

该数据集是论文《Ensuring Open Source Integrity: The Intersection of Copy-Based Reuse and License Compliance》的复制包,包含支持论文研究的数据集、R语言代码、bash脚本及相关文档,可复现论文中的分析过程与结果。

文件详解

  • 数据集文件(.gz格式):
  • project2license_map.csv.gz:包含WoC项目名称及其特定时间点的提交许可证数据,项目名称采用GitHub的owner_repo格式
  • depDP.csv.gz:依赖相关数据集
  • depUP.csv.gz:依赖相关数据集
  • regression_sample.csv.gz:回归分析样本数据集
  • copy-vs-dep_sample.csv.gz:复制与依赖对比样本数据集
  • 代码文件:
  • regression_model.r:R语言回归模型代码
  • copy-vs-dep.sh:bash脚本文件
  • 文档与其他文件:
  • README.md:复制包说明文档,包含各文件内容介绍
  • noncompliance.pdf:非合规性相关PDF文档

适用场景

  • 开源软件研究:分析开源项目的许可证合规性现状
  • 代码复用研究:探究复制型代码复用与依赖型代码复用的差异及合规性问题
  • 回归模型应用:复现论文中的回归分析方法与结果
  • 开源治理实践:为开源项目许可证管理提供数据支持与分析依据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 549.21 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。