GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

数据集概述

本数据集为722作业项目数据，包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码，旨在通过LLM模型实现PR评论的重要性过滤，提升代码审查效率。

文件详解

数据文件
文件名称：1500data.xlsx
文件格式：XLSX
字段映射介绍：包含3人标注的1500条GitHub PR评论数据，采样自495个项目、超400万条PR，用于模型训练与验证
代码文件
文件名称：finetuned_BERT_comments_detector.ipynb
文件格式：IPYNB
字段映射介绍：BERT基础模型微调代码，用于训练PR评论有用性预测模型
模型文件
文件名称：finetuned_BERT_epoch_5.model
文件格式：MODEL
字段映射介绍：训练至第5轮的BERT模型，为性能较优的模型版本
应用代码文件
文件名称：senEmailNoti.ipynb
文件格式：IPYNB
字段映射介绍：PR评论重要性预测代码，可输出预测结果并通过邮件通知相关人员
辅助文件
文件名称：Interview Plan.pdf
文件格式：PDF
字段映射介绍：用户访谈计划文件，用于项目相关的用户调研

数据来源

GitHub Platform

适用场景

代码审查效率优化：通过LLM模型过滤PR评论重要性，减少开发者无效评论浏览时间
自然语言处理模型训练：基于标注的PR评论数据，开展文本分类模型的训练与验证
开发者协作工具改进：结合评论重要性预测与邮件通知功能，优化团队协作流程
软件工程研究：分析PR评论的有用性特征，探索代码审查质量提升路径

数据与资源

15293180.zipZIP
418.48 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	418.48 MiB
最后更新	2026年1月23日
创建于	2026年1月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？