设计模式检测Python代码数据集-GitHub与Bitbucket-设计模式-2024
数据来源:互联网公开数据
标签:设计模式,Python,代码,软件工程,模式识别,机器学习,GitHub,Bitbucket,GoF,可执行代码
数据概述:
本数据集旨在改进现有设计模式检测开源数据集的局限性。现有数据集,如Nazar et al.和P-mart数据集,依赖于从开源项目中提取的不可执行文件,这些文件需要特定的项目依赖才能运行,且未能全面覆盖23种GoF设计模式。为了解决这些问题,我们开发了一个自定义网络爬虫,从GitHub和Bitbucket收集了1832个带标签的Python文件,确保每个文件都包含可执行的main部分。经过数据增强后,该数据集最终包含了35462个带标签的样本。
数据用途概述:
该数据集特别支持对设计模式的结构和行为进行分析,因为它允许通过代码执行进行运行时数据分析。它涵盖了所有26种GoF模式,与现有数据集相比,提供了更广泛、更动态的资源。该数据集适用于设计模式检测算法的开发和评估,软件工程研究,以及机器学习模型的训练。研究人员可以使用此数据集进行设计模式识别、代码理解、软件维护和重构等方面的研究。