开源GitHub仓库星标-问题与拉取请求数据分析集-2011-mohammedmecheter

开源GitHub仓库星标-问题与拉取请求数据分析集-2011-mohammedmecheter 数据来源:互联网公开数据 标签:GitHub,开源项目,数据集,星标,问题,拉取请求,数据清理,时间序列,编程

数据概述: 本数据集包含了通过GitHub API收集的GitHub仓库、问题和拉取请求的详细信息。数据涵盖了仓库的元数据(如星标数、分支数、开放问题数)以及历史数据(包括问题和拉取请求的创建、关闭和合并时间线)。数据集分为三个部分:仓库数据、问题数据和拉取请求数据。

仓库数据字典: 本部分数据包含GitHub仓库的详细信息,包括元数据,如星标数、分支数和活动状态。

列名 数据类型 描述 id object 仓库的唯一标识符 name object 仓库名称(例如:"docker") full_name object 仓库的完整名称(例如:"prometheus/alertmanager") description object 仓库的描述,可能为空 stars int64 仓库获得的星标数 forks int64 仓库被分支的次数 open_issues int64 仓库中的开放问题数 created_at datetime 仓库创建的日期和时间 updated_at datetime 仓库最后更新的日期和时间 size_category object 基于星标数对仓库的分类(micro, small, medium, large, mega) stale bool 布尔值标志,指示仓库是否“过时”(超过6个月未更新) stars_per_fork float64 每次分支获得的星标数(计算得出) stars_per_issue float64 每个开放问题获得的星标数(计算得出) contributor_per_star float64 每个星标对应的贡献者数(计算得出) total_contributors int64 通过问题和拉取请求的总贡献者数

问题数据字典: 本部分数据包含仓库中提出的问题详情,包括创建、关闭和状态的相关信息。

列名 数据类型 描述 id object 问题的唯一标识符 created_at datetime 问题创建的日期和时间 updated_at datetime 问题最后更新的日期和时间 closed_at datetime 问题关闭的日期和时间(可选,未关闭则为空) number int64 GitHub仓库中的问题编号 repository object 问题所属的仓库名称 state object 问题的当前状态("open"或"closed") title object 问题的标题 resolution_time_days float64 解决问题所用的天数(计算得出,未解决则为-1)

拉取请求数据字典: 本部分数据包含仓库中的拉取请求信息,包括元数据,如状态、创建、关闭和合并时间。

列名 数据类型 描述 id object 拉取请求的唯一标识符 created_at datetime 拉取请求创建的日期和时间 updated_at datetime 拉取请求最后更新的日期和时间 closed_at datetime 拉取请求关闭的日期和时间(可选,未关闭则为空) merged_at datetime 拉取请求合并的日期和时间(可选,未合并则为空) number int64 GitHub仓库中的拉取请求编号 repository object 拉取请求所属的仓库名称 state object 拉取请求的当前状态("open"、"closed"或"merged") title object 拉取请求的标题 merge_time_days float64 合并拉取请求所用的天数(计算得出,未合并则为-1)

一般注意事项: 日期列:所有created_at、updated_at、closed_at和merged_at列均为UTC时区 数值列:如stars、forks和open_issues等字段缺失时,使用0填充 缺失数据:对于closed_at或merged_at等可选字段,缺失值处理为空值(或Pandas中的NaN) 计算列:resolution_time_days、merge_time_days和contributor_per_star等列是在数据清理和转换过程中添加的派生指标

附加文件和使用说明: CSV文件:清洗和转换后的数据集保存为.csv文件 repo_data.csv:清洗后的仓库数据 issues_data.csv:清洗后的问题数据 pr_data.csv:清洗后的拉取请求数据

数据用途概述: 该数据集适用于开源项目分析、开发贡献者行为研究、项目健康度评估等多个场景。研究人员可以利用此数据了解项目的活跃度和参与度;开发者可以分析项目中的问题和拉取请求以优化项目管理流程;政策制定者可基于数据评估开源项目的健康状况和社区活跃度。此外,数据集也适合用于教育培训,帮助学习者理解开源项目的运作机制和开发过程中的沟通协作模式。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 16.9 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。