数据集概述
本数据集包含Eclipse JDT Core对10个Java项目进行静态分析的结果,覆盖每个项目的方法声明、函数调用序列及补全建议。数据以JSON和TXT格式存储,总计30个文件,用于函数调用补全相关研究。
文件详解
- JSON文件(10个)
- 文件名称:遵循“[项目名]_eclipse.json”模式(如game-of-life_eclipse.json)
- 文件格式:JSON
- 字段映射介绍:包含项目的所有方法声明及方法体中的函数调用,列出每个调用位置的所有可能函数调用建议
- TXT文件(20个)
- 文件名称:分为“[项目名]_sequences.txt”(10个)和“[项目名]_proposals.txt”(10个)(如clojure_sequences.txt、twitter4j_proposals.txt)
- 文件格式:TXT
- 字段映射介绍:
- *_sequences.txt:存储项目的方法声明+函数调用序列,每行最后一个元素为补全位点
- *_proposals.txt:对应sequences.txt每行的函数调用补全建议,与sequences.txt行一一对应
数据来源
论文“Combining Code Embedding with Static Analysis for Function-Call Completion”
适用场景
- 代码补全模型训练: 利用函数调用序列和补全建议数据,训练或优化Java函数调用补全工具
- 静态分析技术研究: 分析Eclipse JDT Core静态分析的准确性和覆盖范围
- 代码结构分析: 通过方法声明和调用序列,研究Java项目的代码依赖关系和结构特征
- 软件维护优化: 基于函数调用模式,识别代码中的潜在问题或优化点