数据集概述
本数据集为722作业项目数据,包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码,旨在通过LLM模型实现PR评论的重要性过滤,提升代码审查效率。
文件详解
- 数据文件
- 文件名称:1500data.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含3人标注的1500条GitHub PR评论数据,采样自495个项目、超400万条PR,用于模型训练与验证
- 代码文件
- 文件名称:finetuned_BERT_comments_detector.ipynb
- 文件格式:IPYNB
- 字段映射介绍:BERT基础模型微调代码,用于训练PR评论有用性预测模型
- 模型文件
- 文件名称:finetuned_BERT_epoch_5.model
- 文件格式:MODEL
- 字段映射介绍:训练至第5轮的BERT模型,为性能较优的模型版本
- 应用代码文件
- 文件名称:senEmailNoti.ipynb
- 文件格式:IPYNB
- 字段映射介绍:PR评论重要性预测代码,可输出预测结果并通过邮件通知相关人员
- 辅助文件
- 文件名称:Interview Plan.pdf
- 文件格式:PDF
- 字段映射介绍:用户访谈计划文件,用于项目相关的用户调研
数据来源
GitHub Platform
适用场景
- 代码审查效率优化:通过LLM模型过滤PR评论重要性,减少开发者无效评论浏览时间
- 自然语言处理模型训练:基于标注的PR评论数据,开展文本分类模型的训练与验证
- 开发者协作工具改进:结合评论重要性预测与邮件通知功能,优化团队协作流程
- 软件工程研究:分析PR评论的有用性特征,探索代码审查质量提升路径