数据集概述
本数据集是复现论文《The Fact Selection Problem in LLM-Based Program Repair》所需的代码、脚本及数据集合,包含BugsInPy数据集的采样bug数据、模型响应结果、事实提取脚本、提示生成工具及实验验证代码,支持LLM程序修复中事实选择问题的实验复现与分析。
文件详解
- 压缩文件
- 文件名称:maniple.zip
- 文件格式:ZIP
- 字段映射介绍:包含以下核心目录与文件(基于描述推断):
- data/:训练与测试数据集目录,含BGP32.zip(32个BugsInPy采样bug)、BGP32-without-cot.zip(无CoT提示的GPT响应)、BGP314.zip(314个BugsInPy bug)等实验数据
- maniple/:事实提取、提示生成、指标计算的脚本目录,含strata_based/(分层提示生成)、utils/(工具函数)、metrics/(指标计算)子目录
- patch_correctness_labelling.xlsx:补丁正确性标注文件
- experiment.ipynb:模型训练用Jupyter笔记本
- experiment-initialization-resources/:实验初始化资源目录,含bug原始事实、数据集列表、分层位向量等
数据来源
论文“The Fact Selection Problem in LLM-Based Program Repair”配套代码仓库
适用场景
- LLM程序修复研究:复现论文中基于位向量的事实选择方法,分析其对程序修复效果的影响
- 程序修复提示工程优化:通过不同位向量配置生成提示,探究事实选择对LLM响应质量的作用
- 程序修复补丁验证:利用validate脚本测试生成补丁的正确性,评估修复效果
- 大语言模型代码能力分析:研究LLM在程序修复任务中对代码事实的利用机制