GitHub_Source_公共代码仓库相似分组数据集_2016

数据集概述

本数据集包含2016年10月的公共GitHub仓库相似分组数据,采用加权Jaccard相似度(阈值0.8~0.9)将高度相似的仓库分为多个组。数据格式为JSON,整体结构为列表嵌套列表,每个内层列表对应一组相似仓库。

文件详解

  • 文件名称:github_duplicates.json
  • 文件格式:JSON
  • 字段映射介绍:整体为列表结构,内层每个列表代表一组相似仓库,列表中的元素为高度相似的GitHub仓库标识;采用加权Jaccard相似度计算相似性,阈值范围为0.8至0.9。

适用场景

  • 开源代码重复检测研究: 分析GitHub平台上高度相似仓库的分布情况,识别重复或衍生的开源项目。
  • 软件开发协作分析: 探究相似仓库间的协作模式、代码复用行为及开发者关联。
  • 代码质量评估: 结合相似仓库分组数据,评估开源项目的代码独特性与创新度。
  • 开源生态系统研究: 研究特定时间段内GitHub平台上相似仓库的形成机制与演化趋势。
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。