SnipGen_Based_LLM代码生成能力评估数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

SnipGen_Based_LLM代码生成能力评估数据集

数据集概述

本数据集是SnipGen框架的复现数据，包含用于评估大语言模型（LLM）代码能力的测试数据。数据集包含3个JSON格式的精选测试集和1个压缩的原始数据归档，覆盖代码摘要、代码补全等软件工程项目任务，支持LLM代码生成能力的验证与分析。

文件详解

精选测试集文件（JSON格式）
文件名称：summarization_task.json、curatedSummarization.json、code_completion_docstring_3k_T2_deduped_tuned.json
文件格式：JSON
字段映射介绍：summarization_task.json包含代码片段来源仓库名、文件名、提交信息、代码片段及关联文档；code_completion_docstring_3k_T2_deduped_tuned.json包含控制组、T1、T2处理组的提示词及ChatGPT预测结果
原始数据归档
文件名称：snipgen.tar.gz
文件格式：tar.gz
字段映射介绍：包含从GitHub仓库挖掘后收集的原始数据

数据来源

SnipGen框架复现仓库

适用场景

LLM代码生成能力评估: 用于测试和比较不同LLM在代码摘要、代码补全任务中的性能表现
软件工程项目任务研究: 支持代码描述生成代码、文档字符串与代码结合生成代码等场景的研究
代码生成提示词优化: 基于code_completion文件中的提示词设计，优化LLM代码生成的提示策略
代码挖掘数据复用: 利用原始数据归档开展GitHub代码仓库挖掘的拓展研究

数据与资源

14279563.zipZIP
108.95 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	108.95 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？