-
DomainDebt_Based_开源项目领域债务影响分析数据集
2026年1月28日 30 84 19
数据集概述 本数据集为论文《An analysis of the impact of domain debt in open-source projects》的配套数据,包含开源项目领域债务相关的原始数据、筛选数据、数据库结构文件及最终研究用仓库列表,共5个文件,用于支持领域债务对开源项目影响的分析研究。 文件详解 original_boa.txt...
-
Hugging_Face_Based_ML模型碳足迹研究复现包数据
2026年1月27日 30 70 28
数据集概述 本数据集是论文《Exploring the Carbon Footprint of Hugging Face's ML Models: A Repository Mining Study》的复现包,包含支撑论文分析的完整资源,通过README和配套脚本提供分析流程的详细指导,帮助使用者复现论文中的研究结果。 文件详解...
-
GitHub问题生成的LLM软件需求数据集
2025年12月9日 30 112 60
数据集概述 该数据集包含基于GitHub五个开源仓库(pytorch/pytorch等)的功能请求,由o3-mini和deepseek-r1-distill-llama-70b两个LLM通过三种提示策略生成的软件需求,以及qwen-qwq-32b模型对需求质量的评估结果,可用于分析生成模型和提示技术对需求质量的影响。 文件详解 数据文件:...
-
GitHub_X_COBOL_Based_COBOL开源仓库数据完整集合
2025年12月6日 30 39 33
数据集概述 该数据集包含从GitHub挖掘的84个COBOL开源仓库数据,含项目开发周期元数据及1255个COBOL文件,支持COBOL遗留系统现代化、代码特性研究及开发工具构建,为COBOL实证研究提供数据基础。 文件详解 文件名称: Information_Of_Repo.xlsx,文件格式: XLSX,可能包含84个COBOL仓库的元数据信息...
-
拉取请求属性与生命周期预测数据集
2025年12月6日 30 4 0
数据集概述 本数据集包含从GitHub上101个开源仓库提取的拉取请求数据,核心围绕拉取请求属性与生命周期预测的关联展开,涵盖人类及自动化提交的拉取请求信息,为研究影响拉取请求生命周期的关键因素提供数据支持。 文件详解 8199924.zip: 压缩文件格式,包含从GitHub开源仓库提取的拉取请求原始数据,具体字段需解压后查看。...
-
跨项目需求可追溯性自然语言工件数据集
2025年11月27日 30 147 42
数据集概述 本数据集聚焦跨项目需求可追溯性,基于自然语言工件构建,整合5个领域52个项目的约1100+条需求,涵盖开源仓库、工业数据集、基准数据集及非功能需求数据集,支持软件工程与自然语言处理领域的跨项目可追溯性研究与知识复用。 文件详解 文件名称:...



