Gitome_MSR2024_GitHub_README相关任务数据集

数据集概述

本数据集为Gitome,是一个用于GitHub README相关任务的精选数据集,包含数据模型、现有数据集、语言统计、主题统计、仓库列表等9个文件,支持MSR2024会议论文的实验结果复现,可用于GitHub README相关的数据分析与任务研究。

文件详解

  • emf_metamodel.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含Gitome数据模型的Ecore项目
  • existing_dumps.zip
  • 文件格式:ZIP
  • 字段映射介绍:构建Gitome所用的现有数据集
  • lang_aggr_stats.csv
  • 文件格式:CSV
  • 字段映射介绍:包含domain、support、avg_code、avg_text、tot、avg_tot等字段,记录各编程语言的统计数据
  • langs.csv
  • 文件格式:CSV
  • 字段映射介绍:包含所有编程语言及其频率信息
  • output_dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:解析README文件得到的基准数据集
  • repository_lists.zip
  • 文件格式:ZIP
  • 字段映射介绍:每个考虑的数据集的仓库列表(可能包含重复)
  • topics.csv
  • 文件格式:CSV
  • 字段映射介绍:包含Element、Frequency字段,记录所有主题及其频率
  • topics_aggr_stats.csv
  • 文件格式:CSV
  • 字段映射介绍:包含用于计算论文中统计数据的主题数据
  • gitome_repo.txt
  • 文件格式:TXT
  • 字段映射介绍:包含所考虑的GitHub仓库的URL列表

数据来源

MDEGroup的GitHub仓库:https://github.com/MDEGroup/Gitome-MSR2024

适用场景

  • GitHub README数据分析: 用于分析GitHub仓库README文件的内容特征、语言分布和主题分布
  • 软件仓库研究: 支持对GitHub仓库的语言使用、主题趋势等方面的研究
  • 数据建模应用: 基于Ecore数据模型进行GitHub README相关的数据建模任务
  • 实验结果复现: 辅助复现MSR2024会议论文中关于Gitome数据集的实验结果
  • 自然语言处理任务: 为GitHub README相关的自然语言处理任务提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 81.24 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。