数据集概述
本数据集是《Usage and Attribution of Stack Overflow Code Snippets in GitHub Projects》的补充材料,聚焦Stack Overflow(SO)代码片段在GitHub项目中的使用与归因情况。包含大规模实证研究结果、开发者认知调查数据及相关限制说明,覆盖代码使用合规性、归因现状、开发者许可证认知等核心内容,共10个文件。
文件详解
- 文档类文件
- 文件名称:LICENSE.txt
- 文件格式:TXT
- 字段映射介绍:说明数据中来自Stack Overflow的内容采用CC BY-SA 3.0许可证
- 文件名称:0_README.txt
- 文件格式:TXT
- 字段映射介绍:说明数据集目录结构与研究论文章节对应关系,含各文件进一步信息指引
- 归档类文件
- 文件名称:1_preliminary-study.zip
- 文件格式:ZIP
- 字段映射介绍:初步研究相关数据归档
- 文件名称:2_phase-1.zip
- 文件格式:ZIP
- 字段映射介绍:第一阶段研究相关数据归档
- 文件名称:3_phase-2.zip
- 文件格式:ZIP
- 字段映射介绍:第二阶段研究相关数据归档
- 文件名称:4_phase-3.zip
- 文件格式:ZIP
- 字段映射介绍:第三阶段研究相关数据归档
- 文件名称:5_licensing-conflicts.zip
- 文件格式:ZIP
- 字段映射介绍:许可证冲突分析相关数据归档
- 文件名称:6_attribution-requirements.zip
- 文件格式:ZIP
- 字段映射介绍:归因要求研究相关数据归档
- 文件名称:7_awareness-study.zip
- 文件格式:ZIP
- 字段映射介绍:开发者认知研究相关数据归档
- 文件名称:8_limitations.zip
- 文件格式:ZIP
- 字段映射介绍:研究局限性说明相关数据归档
数据来源
论文《Usage and Attribution of Stack Overflow Code Snippets in GitHub Projects》
适用场景
- 软件开发生态研究: 分析GitHub项目对SO代码片段的使用频率与归因合规性现状
- 开源许可证合规性分析: 研究CC BY-SA 3.0许可证在实际代码复用中的执行情况
- 开发者行为分析: 探究开发者对SO代码片段许可证的认知程度及归因行为动机
- 代码复用风险评估: 评估未正确归因SO代码片段可能引发的法律与维护风险
- 开源社区治理优化: 为提升代码复用合规性提供实证数据支持