数据集概述
本数据集为Java 8 Streams使用与误用实证研究的原始数据,基于34个Java项目、553万行代码及719个手动检查补丁分析生成,涵盖流操作的使用模式、并行化决策及相关缺陷特征,包含11个文件,以CSV格式为主。
文件详解
- 文档文件
- 文件名称:README.md
- 文件格式:MD
- 字段映射介绍:数据集说明文档,列出各文件用途及字段注释
- 数据文件
- 文件名称:characteristics_subject_data.csv
- 文件格式:CSV
- 字段映射介绍:研究对象的通用属性,含子项目标识、代码行数(SLOC)等指标
- 文件名称:characteristics_subject_ages.csv
- 文件格式:CSV
- 字段映射介绍:研究对象的项目年龄信息,含subject、first commit date、last commit date、days、years字段
- 文件名称:characteristics_subject_entry_points.csv
- 文件格式:CSV
- 字段映射介绍:研究对象的入口点信息,含subject raw、subject、method、type FQN字段
- 文件名称:characteristics_stream_execution_modes.csv
- 文件格式:CSV
- 字段映射介绍:流执行模式特征数据
- 文件名称:characteristics_stream_orderings.csv
- 文件格式:CSV
- 字段映射介绍:流排序特征数据
- 文件名称:method_calls_subjects.csv
- 文件格式:CSV
- 字段映射介绍:研究对象的方法调用数据
- 文件名称:method_calls.csv
- 文件格式:CSV
- 字段映射介绍:方法调用数据
- 文件名称:bugs.csv
- 文件格式:CSV
- 字段映射介绍:流相关缺陷数据
- 归档文件
- 文件名称:Java-Subjects-master.zip
- 文件格式:ZIP
- 字段映射介绍:研究涉及的Java项目源码归档包
数据来源
论文“An Empirical Study on the Use and Misuse of Java 8 Streams”
适用场景
- Java开发实践优化:分析流API使用模式,指导开发者规范使用Java 8 Streams
- 代码缺陷检测工具开发:基于流相关缺陷特征训练静态分析工具
- API设计改进:为Java Streams API设计提供实证依据
- 软件开发教育:作为Java并发编程与流API教学案例数据
- 性能优化研究:分析流并行化使用现状及性能影响因素