CodeLlama-7b-hf模型C语言代码生成数据集-代码反编译任务

CodeLlama-7b-hf模型C语言代码生成数据集-代码反编译任务 数据来源:互联网公开数据 标签:代码生成, C语言, 反编译, CodeLlama, 机器学习, 软件工程, Hex-Rays, Form AI Dataset

数据概述: 本数据集用于微调CodeLlama-7b-hf模型,旨在训练模型根据Hex-Rays反编译器生成的反编译代码预测原始C语言源代码。数据集由两列数据构成,第一列是原始C语言源代码,源自Form AI数据集;第二列是使用Hex-Rays反编译器(版本8.3.0.230608)对相应源代码进行反编译后的结果。

数据用途概述: 该数据集主要用于训练和评估CodeLlama-7b-hf模型在C语言代码生成任务上的表现。研究人员可以使用此数据集进行模型微调,以提升模型根据反编译代码还原原始C语言代码的能力。这对于代码逆向工程、软件漏洞分析、代码迁移等领域具有重要的应用价值。此外,该数据集也可用于研究不同反编译器的输出差异,以及探索基于反编译代码的程序分析技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 94.74 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。