SO_GitHub_Based代码片段使用与归因研究补充材料

数据集概述

本数据集是《Usage and Attribution of Stack Overflow Code Snippets in GitHub Projects》的补充材料,聚焦Stack Overflow(SO)代码片段在GitHub项目中的使用与归因情况。包含大规模实证研究结果、开发者认知调查数据及相关限制说明,覆盖代码使用合规性、归因现状、开发者许可证认知等核心内容,共10个文件。

文件详解

  • 文档类文件
  • 文件名称:LICENSE.txt
  • 文件格式:TXT
  • 字段映射介绍:说明数据中来自Stack Overflow的内容采用CC BY-SA 3.0许可证
  • 文件名称:0_README.txt
  • 文件格式:TXT
  • 字段映射介绍:说明数据集目录结构与研究论文章节对应关系,含各文件进一步信息指引
  • 归档类文件
  • 文件名称:1_preliminary-study.zip
  • 文件格式:ZIP
  • 字段映射介绍:初步研究相关数据归档
  • 文件名称:2_phase-1.zip
  • 文件格式:ZIP
  • 字段映射介绍:第一阶段研究相关数据归档
  • 文件名称:3_phase-2.zip
  • 文件格式:ZIP
  • 字段映射介绍:第二阶段研究相关数据归档
  • 文件名称:4_phase-3.zip
  • 文件格式:ZIP
  • 字段映射介绍:第三阶段研究相关数据归档
  • 文件名称:5_licensing-conflicts.zip
  • 文件格式:ZIP
  • 字段映射介绍:许可证冲突分析相关数据归档
  • 文件名称:6_attribution-requirements.zip
  • 文件格式:ZIP
  • 字段映射介绍:归因要求研究相关数据归档
  • 文件名称:7_awareness-study.zip
  • 文件格式:ZIP
  • 字段映射介绍:开发者认知研究相关数据归档
  • 文件名称:8_limitations.zip
  • 文件格式:ZIP
  • 字段映射介绍:研究局限性说明相关数据归档

数据来源

论文《Usage and Attribution of Stack Overflow Code Snippets in GitHub Projects》

适用场景

  • 软件开发生态研究: 分析GitHub项目对SO代码片段的使用频率与归因合规性现状
  • 开源许可证合规性分析: 研究CC BY-SA 3.0许可证在实际代码复用中的执行情况
  • 开发者行为分析: 探究开发者对SO代码片段许可证的认知程度及归因行为动机
  • 代码复用风险评估: 评估未正确归因SO代码片段可能引发的法律与维护风险
  • 开源社区治理优化: 为提升代码复用合规性提供实证数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 82.7 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。