数据集概述
本数据集为自动化软件工程LLM提示报告的复现包,包含数据提取结果、调查数据、评估代码及相关文档,覆盖论文筛选提示、LLM模型信息提取、调查问题与数据等内容,支持研究复现与扩展分析。
文件详解
该数据集包含十五个文件,具体说明如下:
- 代码文件(.ipynb格式):
- extraction_evaluation.ipynb:数据提取评估代码,含论文图表生成逻辑
- survey_evaluation.ipynb:调查评估代码,含论文图表生成逻辑
- statistics_evaluation.ipynb:调查统计评估代码
- 数据文件(.csv格式):
- extraction_data_e1_counts.csv:论文中使用的LLM(提取问题E1)按出现次数降序排列
- extraction_data.csv:数据提取完整数据集
- extraction_round2_data.csv:第二轮数据提取(验证轮)完整数据集
- llm_strings.csv:DOI列表及对应提取的LLM信息
- llms_extracted_merged.csv:从llm_strings.csv手动提取的信息,含模型、版本、变体、规模,合并重复项并按计数降序排列
- llms_extracted.csv:从llm_strings.csv手动提取的信息,含模型、版本、变体、规模
- survey_data.csv:调查完整数据集
- survey_questions.csv:调查问题及其ID、类型对应表
- 文档与配置文件:
- filtering_recall.xlsx:LLM论文筛选与人工基准对比评估
- include_exclude_papers_v3.txt:论文筛选最终提示词
- pe_techniques.txt:提取的PE技术列表及出现次数(降序)
- survey_questionnaire.pdf:在线调查问卷打印版
适用场景
- 软件工程研究:分析自动化软件工程领域LLM提示技术的应用现状与趋势
- 自然语言处理应用:探究LLM在学术论文筛选与数据提取中的效果评估方法
- 调查数据分析:基于软件工程从业者对LLM提示的调查数据开展实证研究
- 研究复现:支持《Reporting LLM Prompting in Automated Software Engineering》论文结果的复现验证