大语言模型代码翻译引入缺陷研究数据集2024

数据集概述

该数据集为ICSE 2024收录论文《Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code》的配套实证研究 artifact 仓库,包含代码翻译实验的复现代码、数据集及实验结果,支持分析大语言模型与传统方法在代码跨语言翻译中引入的缺陷类型与修复效果。

文件详解

数据集包含两个核心压缩文件,具体说明如下: - 文件名称:dataset.zip - 文件格式:ZIP(.zip) - 内容说明:存储实验所用原始数据集,包含CodeNet、AVATAR、Evalplus、真实CLI项目等子数据集,每个子数据集按源语言分类,包含代码片段(Code目录)和测试用例(TestCases目录) - 文件名称:artifacts.zip - 文件格式:ZIP(.zip) - 内容说明:存储实验结果,按研究问题分类为RQ1(翻译结果)、RQ2(缺陷人工标注)、RQ3(传统方法翻译结果)、RQ4(缺陷修复结果),各目录含结果明细Excel文件

数据来源

Intelligent-CAT-Lab的GitHub仓库(https://github.com/Intelligent-CAT-Lab/PLTranslationEmpirical)及Zenodo平台

适用场景

  • 代码翻译研究:对比大语言模型与传统转译工具的代码翻译准确率与缺陷特征
  • 软件缺陷分析:分析跨语言代码翻译中语法、语义类缺陷的分布规律
  • 模型优化方向:为大语言模型代码翻译能力的改进提供实证依据
  • 实证研究复现:支持复现论文中关于代码翻译缺陷的定量与定性分析结果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 674.62 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。