数据集

LLM_Based_伦敦国王学院AI驱动Python编译器测试增强数据集2024

数据集概述

本数据集通过整合大语言模型（LLM）与AFL++模糊测试技术生成，用于增强CPython编译器测试。包含由Mistral 7B、Codellama 7B、Gemma 7B等LLM创建的原始Python测试脚本，覆盖多种编译器功能；经模糊测试得到丰富测试用例，可选AFL-cmin最小化处理，聚焦提升代码覆盖率与漏洞发现的用例。共3个文件，支持AI驱动软件测试方法的研究与开发。

文件详解

README.txt
文件格式：TXT
字段映射介绍：包含数据集封面信息，如项目标题、日期（2024年4月25日）、作者、机构（伦敦国王学院）及数据集概述，说明LLM与模糊测试融合的编译器测试流程及数据集作用。
prompts.txt
文件格式：TXT
字段映射介绍：包含LLM生成测试脚本的提示词，如“Write a program in python that demonstrates the use of 'False' and 'None'”等，指导LLM生成针对特定语法功能的测试代码。
Python test suite.zip
文件格式：ZIP
字段映射介绍：压缩包内包含LLM生成的原始Python测试脚本、经模糊测试得到的测试用例集，可能包含最小化处理后的精简测试用例（若执行了AFL-cmin）。

数据来源

伦敦国王学院（King's College London）Jiaqi Xu项目

适用场景

CPython编译器测试优化：用于测试编译器潜在漏洞，提升编译器设计与测试效率。
AI驱动软件测试研究：支持探索LLM与模糊测试融合的软件测试方法，验证其在代码覆盖率与漏洞发现中的效果。
编译器功能验证：针对不同编译器功能（如布尔值、空值等语法特性），验证编译器处理逻辑的正确性。
测试用例生成方法改进：分析LLM生成测试脚本的有效性，优化AI生成测试用例的提示词设计与模型选择策略。

数据与资源

11062815.zipZIP
62.30 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	62.3 MiB
最后更新	2026年1月15日
创建于	2026年1月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。