数据集概述
本数据集是论文《Querying Source Code with Natural Language》的配套数据,包含支持自然语言查询源代码方法的原型实现与实验相关文件。原型部分有训练数据、映射数据和单元测试查询;实验部分含实验指导、任务描述、输入项目及日志文件,为复现研究结果提供支持。
文件详解
- 原型文件
- 文件名称:training-data.txt
- 文件格式:TXT
- 字段映射介绍:包含标注后的查询训练数据
- 文件名称:mapping-data.txt
- 文件格式:TXT
- 字段映射介绍:记录词干形式到JDT搜索参数的映射关系
- 文件名称:unit-tests.csv
- 文件格式:CSV
- 字段映射介绍:包含单元测试所用的查询数据
- 实验文件
- 文件名称:experiment-instructions.pdf
- 文件格式:PDF
- 字段映射介绍:实验操作指导说明
- 文件名称:experiment-tasks.pdf
- 文件格式:PDF
- 字段映射介绍:实验任务描述文档
- 文件名称:experiment-project.zip
- 文件格式:ZIP
- 字段映射介绍:输入的Eclipse项目文件(Space invader游戏)
- 文件名称:experiment-logs.zip
- 文件格式:ZIP
- 字段映射介绍:记录实验中输入查询的日志文件
数据来源
论文《Querying Source Code with Natural Language》(发表于26th IEEE/ACM International Conference On Automated Software Engineering 2011)
适用场景
- 自然语言源代码检索研究: 用于开发和优化基于自然语言的源代码查询算法与工具
- 软件工程交互设计: 分析开发者查询行为,优化开发环境中代码搜索的用户交互体验
- 代码检索系统评估: 基于实验数据测试自然语言查询工具的准确性与覆盖范围
- 软件开发工具改进: 为Eclipse等开发环境集成自然语言查询功能提供技术参考与训练数据
- 软件工程实验复现: 支持复现论文中关于自然语言源代码查询方法的评估实验