数据集概述
该数据集包含基于GitHub五个开源仓库(pytorch/pytorch等)的功能请求,由o3-mini和deepseek-r1-distill-llama-70b两个LLM通过三种提示策略生成的软件需求,以及qwen-qwq-32b模型对需求质量的评估结果,可用于分析生成模型和提示技术对需求质量的影响。
文件详解
- 数据文件:
- issues.csv:CSV格式,包含源功能请求,字段有仓库名称、问题编号、问题标题
- all_requirements.csv:CSV格式,存储生成的软件需求,字段有仓库名称、问题编号、问题标题、生成模型、提示风格、需求文本
- parsed.csv:CSV格式,包含需求质量评估结果,字段有仓库名称、问题编号、问题标题、生成模型、提示风格、需求文本、评估解释、明确性得分、可验证性得分、单一性得分
- 可视化资产:
- boxplot_deepseek.png:PNG格式,展示deepseek模型生成需求的评分分布(按提示风格)
- boxplot_o3-mini.png:PNG格式,展示o3-mini模型生成需求的评分分布(按提示风格)
- requirements_evaluation_histogram.png:PNG格式,对比两个模型在三个评估指标上的得分分布
- 代码脚本:
- prompts.py:Python文件,定义LangChain提示模板(零样本、专家角色、少样本)
- extract_issues.py:Python文件,使用PyGithub库从GitHub仓库提取功能请求
- generate_requirements.py:Python文件,调用LLM生成需求并保存结果
- evaluate_requirements.py:Python文件,使用qwen-qwq-32b模型评估需求质量
- analyze_evaluations.ipynb:Jupyter Notebook,包含数据分析和可视化代码
适用场景
- 自然语言处理研究:分析不同LLM和提示策略对软件需求生成质量的影响
- 软件工程研究:探索自动化需求生成在开源项目中的应用潜力
- 提示工程研究:比较零样本、少样本、专家角色提示在特定任务中的效果
- 需求工程研究:评估AI生成需求的明确性、可验证性和单一性等质量属性