公共代码贡献地域多样性复制数据包

数据集概述

本数据集是支持论文《公共代码贡献地域多样性——一项跨越五十年的探索性大规模研究》的复制数据包,包含复现研究所需的原始数据文件、处理脚本、数据库操作指令及图表生成工具,为复现公共代码贡献者地域分布的分析结果提供完整流程支持。

文件详解

该数据集包含代码文件、数据文件、脚本文件及文档,具体说明如下: - 代码文件(.py格式,共九个): - 功能脚本:如filter_names.py(过滤不合理姓名)、guess_country_by_email.py(通过邮箱推测国家)、assign_world_zone.py(通过姓名分配世界区域)等 - 图表生成脚本:create_stackedbar_chart.py(生成堆叠柱状图)、plot_yearly_totals.py(绘制年度总计图表)等 - 数据库相关文件(.sql格式,共六个): - 数据库操作脚本:schema.sql(数据库表结构定义)、extract_commits.sql(提取提交数据)、import_data.sql(导入数据至数据库)等 - 数据文件: - 辅助数据文件:names.tab(各国姓名频率表)、zones.acc.tab(国家/地区、时区及人口数据)、c_c.tab(ccTLD实体与世界区域匹配表)、cctld.csv(ccTLD信息表) - 处理后数据文件示例:commits.csv.zst(提交数据压缩文件)、authors.csv.zst(贡献者数据压缩文件) - 文档文件: - README.md/README.html:数据集及复现流程说明文档 - 脚本文件(.sh格式,共三个): - 自动化处理脚本:export.sh(导出数据库数据)、cleanup.sh(清理贡献者数据)、extract_data.sh(提取绘图数据)

数据来源

Software Heritage

适用场景

  • 软件工程研究:复现公共代码贡献者地域分布的长期演变趋势分析
  • 开源社区研究:探索全球开源贡献者的地域多样性特征
  • 数据处理方法参考:学习大规模代码贡献数据的清洗、地域推测及可视化流程
  • 学术论文验证:支持对原论文研究结论的重复验证与扩展分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.51 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。