代码抽象预训练策略复现包_ICSE26

数据集概述

该数据集是ICSE 26论文《Code Abstraction-based Pre-training Strategy (CAPS)》的复现包,包含论文实验复现所需的说明文档与代码压缩包,为复现基于代码抽象的预训练策略实验提供支持。

文件详解

  • README.md:文档格式,包含代码抽象预训练策略的实验复现说明,如编程语言特征提取步骤、依赖库安装命令(ast-comments、ast等),以及提取特征所用开源数据集的Hugging Face发布地址(如LT_Java)。
  • Abstraction-based-pre-training-main.zip:压缩包格式,可能包含论文实验复现所需的代码文件。

适用场景

  • 自然语言处理研究:复现基于代码抽象的预训练策略实验,验证其效果。
  • 程序语言处理研究:分析代码抽象特征(如token类型、代码义原、依赖关系)的提取方法与应用。
  • 学术论文复现:支持ICSE 26相关论文实验的复现与验证工作。
  • 预训练模型研究:探索代码抽象预训练策略在程序语言模型优化中的作用。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.86 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。