Natural_Language_Guided_Programming_Onward_2021_用户研究数据集

数据集概述

本数据集为论文《Natural Language-Guided Programming》(Onward! 2021收录)的用户研究数据,包含测试用例、模型预测及标注、训练与评估项目索引四类文件,用于评估自然语言引导的代码预测模型性能,支持相关研究的验证与复现。

文件详解

  • 文件名称:benchmark.json
  • 文件格式:JSON
  • 字段映射介绍:包含201个测试用例,每个测试用例含context(上下文代码)、natural language intent(自然语言意图)、target code(目标代码)及project_metadata(原始项目信息,含git url和license)。
  • 文件名称:predictions-annotated.json
  • 文件格式:JSON
  • 字段映射介绍:包含论文中三个模型对benchmark.json中100个测试用例的预测结果,每个预测附三位标注者的定性评估。
  • 文件名称:train-index.jsonl
  • 文件格式:JSONL
  • 字段映射介绍:模型训练所用的GitHub项目列表。
  • 文件名称:eval-index.jsonl
  • 文件格式:JSONL
  • 字段映射介绍:模型评估所用的GitHub项目列表,benchmark.json的测试用例随机取自该列表的项目子集。

数据来源

论文《Natural Language-Guided Programming》(Onward! 2021)

适用场景

  • 自然语言引导代码预测模型评估:利用benchmark.json的测试用例和predictions-annotated.json的标注结果,验证模型性能。
  • 编程意图理解研究:分析测试用例中自然语言意图与目标代码的映射关系,探索自然语言到代码的转换规律。
  • 开源项目代码挖掘:基于train-index.jsonl和eval-index.jsonl的项目列表,研究开源代码的结构特征与许可分布。
  • 人机交互编程工具优化:通过用户研究数据中的标注反馈,改进自然语言引导编程工具的用户体验与准确性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.11 MiB
最后更新 2025年12月28日
创建于 2025年12月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。