数据集概述
本数据集为Gitome,是一个用于GitHub README相关任务的精选数据集,包含数据模型、现有数据集、语言统计、主题统计、仓库列表等9个文件,支持MSR2024会议论文的实验结果复现,可用于GitHub README相关的数据分析与任务研究。
文件详解
- emf_metamodel.zip
- 文件格式:ZIP
- 字段映射介绍:包含Gitome数据模型的Ecore项目
- existing_dumps.zip
- 文件格式:ZIP
- 字段映射介绍:构建Gitome所用的现有数据集
- lang_aggr_stats.csv
- 文件格式:CSV
- 字段映射介绍:包含domain、support、avg_code、avg_text、tot、avg_tot等字段,记录各编程语言的统计数据
- langs.csv
- 文件格式:CSV
- 字段映射介绍:包含所有编程语言及其频率信息
- output_dataset.zip
- 文件格式:ZIP
- 字段映射介绍:解析README文件得到的基准数据集
- repository_lists.zip
- 文件格式:ZIP
- 字段映射介绍:每个考虑的数据集的仓库列表(可能包含重复)
- topics.csv
- 文件格式:CSV
- 字段映射介绍:包含Element、Frequency字段,记录所有主题及其频率
- topics_aggr_stats.csv
- 文件格式:CSV
- 字段映射介绍:包含用于计算论文中统计数据的主题数据
- gitome_repo.txt
- 文件格式:TXT
- 字段映射介绍:包含所考虑的GitHub仓库的URL列表
数据来源
MDEGroup的GitHub仓库:https://github.com/MDEGroup/Gitome-MSR2024
适用场景
- GitHub README数据分析: 用于分析GitHub仓库README文件的内容特征、语言分布和主题分布
- 软件仓库研究: 支持对GitHub仓库的语言使用、主题趋势等方面的研究
- 数据建模应用: 基于Ecore数据模型进行GitHub README相关的数据建模任务
- 实验结果复现: 辅助复现MSR2024会议论文中关于Gitome数据集的实验结果
- 自然语言处理任务: 为GitHub README相关的自然语言处理任务提供数据支持