GitHub_Project_Based开源软件许可证分析数据集1_0

数据集概述

本数据集包含多组GitHub开源项目信息,覆盖PHP、Java、JavaScript、C、C++、C#、Python、Visual Basic八种编程语言。数据用于支持FOSSology Nomos、Ninka等许可证提取工具分析源代码中的开源软件许可证,同时可对项目README.md文件进行分析以发现库中使用的许可证。

文件详解

  • GitHub-repo-dataset-1.0.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含GitHub开源项目的基础信息,覆盖八种编程语言的项目数据,用于许可证提取工具分析源代码中的开源软件许可证。
  • Evaluation summary-v2-online.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含许可证分析的评估总结数据,可能涵盖不同工具的分析结果对比、许可证类型统计等内容,支持对README.md文件及库中许可证的分析。

适用场景

  • 开源软件许可证合规性分析:利用数据集评估GitHub项目中开源许可证的使用情况,确保项目符合开源许可协议要求。
  • 编程语言许可证分布研究:分析不同编程语言(如Python、Java等)项目中常见的开源许可证类型及占比。
  • 许可证提取工具性能验证:对比FOSSology Nomos、Ninka等工具在实际项目中的许可证识别准确率和覆盖范围。
  • 开源社区许可证趋势洞察:通过分析README.md文件及库依赖的许可证,研究开源项目许可证使用的演变趋势。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.09 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。