数据集概述
本数据集是支持论文《公共代码贡献地域多样性——一项跨越五十年的探索性大规模研究》的复制数据包,包含复现研究所需的原始数据文件、处理脚本、数据库操作指令及图表生成工具,为复现公共代码贡献者地域分布的分析结果提供完整流程支持。
文件详解
该数据集包含代码文件、数据文件、脚本文件及文档,具体说明如下:
- 代码文件(.py格式,共九个):
- 功能脚本:如filter_names.py(过滤不合理姓名)、guess_country_by_email.py(通过邮箱推测国家)、assign_world_zone.py(通过姓名分配世界区域)等
- 图表生成脚本:create_stackedbar_chart.py(生成堆叠柱状图)、plot_yearly_totals.py(绘制年度总计图表)等
- 数据库相关文件(.sql格式,共六个):
- 数据库操作脚本:schema.sql(数据库表结构定义)、extract_commits.sql(提取提交数据)、import_data.sql(导入数据至数据库)等
- 数据文件:
- 辅助数据文件:names.tab(各国姓名频率表)、zones.acc.tab(国家/地区、时区及人口数据)、c_c.tab(ccTLD实体与世界区域匹配表)、cctld.csv(ccTLD信息表)
- 处理后数据文件示例:commits.csv.zst(提交数据压缩文件)、authors.csv.zst(贡献者数据压缩文件)
- 文档文件:
- README.md/README.html:数据集及复现流程说明文档
- 脚本文件(.sh格式,共三个):
- 自动化处理脚本:export.sh(导出数据库数据)、cleanup.sh(清理贡献者数据)、extract_data.sh(提取绘图数据)
数据来源
Software Heritage
适用场景
- 软件工程研究:复现公共代码贡献者地域分布的长期演变趋势分析
- 开源社区研究:探索全球开源贡献者的地域多样性特征
- 数据处理方法参考:学习大规模代码贡献数据的清洗、地域推测及可视化流程
- 学术论文验证:支持对原论文研究结论的重复验证与扩展分析