数据集概述
本数据集是提交至《IEEE Transactions on Software Engineering》论文的配套工件,包含复现论文结果所需的源代码、数据集及环境配置说明。提供了环境搭建、依赖安装、结果复现的完整流程,支持使用GPT-4o等大语言模型及本地模型开展代码生成与安全评估实验。
文件详解
- 文件名称:
RACGSecurity.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含复现论文结果的完整内容,核心组成包括:
- 源代码目录
src:含环境配置脚本gen_embedding.py、场景实验脚本Scenario_I.py/Scenario_II.py、安全评估脚本eval_security.py及配置文件configs.py;
- 数据集文件
dataset/ReposVul.jsonl:用于实验的漏洞代码数据集;
- 嵌入向量目录
embeddings:存储检索器所需的预生成嵌入向量。
数据来源
IEEE Transactions on Software Engineering论文提交配套工件
适用场景
- 论文结果复现:遵循文档流程复现论文中代码生成与安全评估的实验结果;
- 大语言模型代码安全研究:基于提供的数据集与脚本,开展LLM生成代码的安全性分析;
- 检索增强代码生成实验:测试不同检索器(如JINA)对代码生成质量及安全性的影响;
- 模型对抗性实验:通过调整投毒数量/比例,研究LLM在对抗场景下的鲁棒性。