数据集概述
本数据集为《协同重命名标识符实证研究》的附录数据,包含四个CSV文件,分为重命名数据和关系数据两类,每类又按是否忽略词形变化分为两个文件。数据记录了代码库中标识符的重命名操作及重命名间的关系,支持软件开发中标识符重命名规律的分析。
文件详解
- 重命名数据文件
- Rename.csv
- 文件格式:CSV
- 字段映射:包含repository(代码库名)、commit(提交哈希)、filepath(标识符位置)、oldname(重命名前名称)、newname(重命名后名称)、type(标识符类型)、operational_chunk(操作块)、meaningful_rename_set_id(有意义重命名集ID)
- Rename_Ignore_Inflection.csv
- 文件格式:CSV
- 字段映射:与Rename.csv字段一致,差异为忽略词形变化处理
- 关系数据文件
- Relation.csv
- 文件格式:CSV
- 字段映射:包含repository(代码库名)、meaningful_rename_set_id(有意义重命名集ID)、commit(提交哈希)、relation(关系类型)、file1/file2(标识符位置)、oldname1/oldname2(重命名前名称)、newname1/newname2(重命名后名称)、type1/type2(标识符类型)
- Relation_Ignore_Inflection.csv
- 文件格式:CSV
- 字段映射:与Relation.csv字段一致,差异为忽略词形变化处理
适用场景
- 软件开发维护研究:分析代码库中标识符重命名的频率、类型及影响范围
- 代码重构规律分析:探究协同重命名操作的模式与关联性
- 标识符命名规范研究:对比重命名前后的标识符名称,提炼有效的命名实践
- 软件演化分析:通过重命名关系数据,追踪代码元素在版本迭代中的变化轨迹