GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

数据集概述

本数据集为722作业项目数据,包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码,旨在通过LLM模型实现PR评论的重要性过滤,提升代码审查效率。

文件详解

  • 数据文件
  • 文件名称:1500data.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含3人标注的1500条GitHub PR评论数据,采样自495个项目、超400万条PR,用于模型训练与验证
  • 代码文件
  • 文件名称:finetuned_BERT_comments_detector.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:BERT基础模型微调代码,用于训练PR评论有用性预测模型
  • 模型文件
  • 文件名称:finetuned_BERT_epoch_5.model
  • 文件格式:MODEL
  • 字段映射介绍:训练至第5轮的BERT模型,为性能较优的模型版本
  • 应用代码文件
  • 文件名称:senEmailNoti.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:PR评论重要性预测代码,可输出预测结果并通过邮件通知相关人员
  • 辅助文件
  • 文件名称:Interview Plan.pdf
  • 文件格式:PDF
  • 字段映射介绍:用户访谈计划文件,用于项目相关的用户调研

数据来源

GitHub Platform

适用场景

  • 代码审查效率优化:通过LLM模型过滤PR评论重要性,减少开发者无效评论浏览时间
  • 自然语言处理模型训练:基于标注的PR评论数据,开展文本分类模型的训练与验证
  • 开发者协作工具改进:结合评论重要性预测与邮件通知功能,优化团队协作流程
  • 软件工程研究:分析PR评论的有用性特征,探索代码审查质量提升路径
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 418.48 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。