复现包_基于OpenAI的嵌入语义代码审查评论相似度实证分析_2025

数据集概述

本数据集是SEAA 2025会议论文《OpenAI嵌入在语义代码审查评论相似度中的实证分析》的复现包,包含所有人工标注数据及可复现论文结果和图表的Jupyter笔记本,共4个文件,支持研究人员验证和扩展相关分析。

文件详解

  • 人工标注数据文件
  • 文件名称:sample_for_experiment_p1.xlsx、sample_for_experiment_p2.xlsx、sample_for_experiment_p3.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含用于实验的人工标注数据,具体字段未提供预览,推测涵盖代码审查评论文本、语义相似度标注等实验相关信息
  • 复现代码文件
  • 文件名称:replication_notebook.ipynb
  • 文件格式:IPYNB
  • 字段映射介绍:Jupyter笔记本,可复现论文中所有结果和图表,包含数据处理、分析及可视化的代码逻辑

数据来源

论文"Empirical Analysis of OpenAI Embeddings for Semantic Code Review Comment Similarity"(Euromicro SEAA 2025)

适用场景

  • 代码审查语义分析研究:验证OpenAI嵌入在代码审查评论语义相似度计算中的效果
  • 软件工程实证研究复现:复现论文实验结果,支持相关领域的学术验证与扩展
  • 自然语言处理在软件工程中的应用:分析预训练嵌入模型在代码相关文本任务中的性能
  • 代码审查工具优化:为开发基于语义相似度的智能代码审查辅助工具提供数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.39 MiB
最后更新 2026年1月26日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。