数据集

代码生成模型DeclamaC代码还原性能评估数据集

数据来源：互联网公开数据

标签：代码生成, C代码, 反编译, 机器学习, 模型评估, 深度学习, CodeLlama, 自然语言处理

数据概述：本数据集用于评估Declama模型在C代码还原任务中的性能。Declama模型是基于CodeLlama-7b-hf模型进行微调，专门用于解决从Hex-Rays反编译代码中重建C语言源代码的问题。数据集包含两个验证样本，每个样本包含100个示例。其中，第一个样本中的示例来自Hex-Rays反编译器，该反编译器是模型在微调过程中所熟悉的；第二个样本则来自RetDec反编译器，该反编译器未用于生成训练样本。

数据内容包括： * 测试用例的源代码 * Hex-Rays和RetDec反编译器的输出代码 * Declama模型生成的C代码 * 对每个生成的代码的主观评估结果（0-2分）

评估指标包括：句子BLEU、语料库BLEU、AED（平均编辑距离）以及主观评分。

数据用途概述：该数据集主要用于模型性能评估和对比分析。研究人员可以使用此数据集评估Declama模型在C代码还原任务中的表现，并将其与基础CodeLlama模型以及其他相关模型进行比较。数据集可用于深入研究代码生成、反编译技术，以及评估不同反编译器的优劣。此外，该数据集也为研究人员提供了一个标准化的测试平台，以开发和优化C代码还原模型。

数据与资源

代码生成模型DeclamaC代码还原性能评估数据集.zipZIP
0.58 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.58 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

代码生成模型DeclamaC代码还原性能评估数据集

数据与资源

附加信息

注册成功！