Maniple_Reproduce_LLM程序修复事实选择问题复现数据

数据集概述

本数据集是复现论文《The Fact Selection Problem in LLM-Based Program Repair》所需的代码、脚本及数据集合,包含BugsInPy数据集的采样bug数据、模型响应结果、事实提取脚本、提示生成工具及实验验证代码,支持LLM程序修复中事实选择问题的实验复现与分析。

文件详解

  • 压缩文件
  • 文件名称:maniple.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含以下核心目录与文件(基于描述推断):
  • data/:训练与测试数据集目录,含BGP32.zip(32个BugsInPy采样bug)、BGP32-without-cot.zip(无CoT提示的GPT响应)、BGP314.zip(314个BugsInPy bug)等实验数据
  • maniple/:事实提取、提示生成、指标计算的脚本目录,含strata_based/(分层提示生成)、utils/(工具函数)、metrics/(指标计算)子目录
  • patch_correctness_labelling.xlsx:补丁正确性标注文件
  • experiment.ipynb:模型训练用Jupyter笔记本
  • experiment-initialization-resources/:实验初始化资源目录,含bug原始事实、数据集列表、分层位向量等

数据来源

论文“The Fact Selection Problem in LLM-Based Program Repair”配套代码仓库

适用场景

  • LLM程序修复研究:复现论文中基于位向量的事实选择方法,分析其对程序修复效果的影响
  • 程序修复提示工程优化:通过不同位向量配置生成提示,探究事实选择对LLM响应质量的作用
  • 程序修复补丁验证:利用validate脚本测试生成补丁的正确性,评估修复效果
  • 大语言模型代码能力分析:研究LLM在程序修复任务中对代码事实的利用机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 976.3 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。