数据集概述
本数据集是ESEC/FSE 2023论文《EvaCRC: Evaluating Code Review Comments》的复现包,包含6个文件,覆盖概念模型构建、实验评估等研究内容,支持论文三个研究问题的复现验证,为代码审查评论评估的相关研究提供可复现的原始数据与材料。
文件详解
- 文档文件
- 文件名称:README.md
- 文件格式:MD
- 字段映射介绍:提供复现包的整体说明,包括三个研究问题对应的文件内容概述,是理解数据集结构与用途的入口文档
- 数据文件
- 文件名称:Benefts_Challenges_for_Triangulation.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含182篇学术论文的质量属性提取数据,字段可能包括论文名称、benefit项及来源句子、challenge项及来源句子、排名摘要等
- 文件名称:OSS_Examples_for_Triangulation.xlsx
- 文件格式:XLSX
- 字段映射介绍:开源软件(OSS)场景下用于三角验证的案例数据
- 文件名称:Commerical_Examples_for_Experimental_Evaluation.xlsx
- 文件格式:XLSX
- 字段映射介绍:商业场景下用于实验评估的代码审查评论案例数据
- 文件名称:Commerical_Examples_for_Human_Evaluation.xlsx
- 文件格式:XLSX
- 字段映射介绍:商业场景下用于人工评估的代码审查评论案例数据
- 归档文件
- 文件名称:SourceCode.zip
- 文件格式:ZIP
- 字段映射介绍:论文研究中使用的源代码归档文件
数据来源
ESEC/FSE 2023论文《EvaCRC: Evaluating Code Review Comments》
适用场景
- 代码审查评论评估模型复现: 复现EvaCRC模型的构建与验证过程,验证论文研究结论的可靠性
- 软件工程学术研究: 为代码审查质量评估、评论有效性分析等方向提供实证数据支持
- 开源与商业代码审查对比研究: 基于OSS和商业场景的案例数据,分析不同场景下代码审查评论的特征差异
- 自然语言处理在软件工程中的应用: 利用代码审查评论文本数据,开展评论语义分析、质量属性提取等NLP任务研究