多语言配对代码与注释变更_代码注释一致性研究数据_zip

数据集概述

本数据集用于硕士论文“LLMs for Code Comment Consistency”,涵盖Go、Java、JavaScript、TypeScript、Python五种语言,从GitHub开源项目提取。包含函数/方法代码块与其文档注释的变更前后配对数据,通过标签区分注释是否变更(0未变更、1变更),变更标签对应注释与新代码不一致的情况,适用于代码注释相关研究。

文件详解

  • 压缩文件
  • 文件名称:code_comment.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含多语言(Go、Java、JavaScript、TypeScript、Python)的函数/方法代码块与文档注释配对数据,记录变更前后内容,附带分类标签(0表示注释未变更,1表示注释变更),数据按语言和正负类平衡划分训练、验证、测试集,同一代码仓库仅存在于一个集合中。

数据来源

GitHub公开项目

适用场景

  • 代码注释一致性检测: 利用标签数据训练模型识别注释与代码是否一致。
  • 代码注释生成优化: 基于变更前后数据改进注释生成模型的准确性。
  • 软件工程研究: 分析多语言代码注释的变更规律和一致性问题。
  • 大语言模型训练: 为代码相关LLM任务提供多语言注释-代码配对数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 537.33 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。