设计模式检测Python代码数据集-GitHub与Bitbucket-设计模式-2024

设计模式检测Python代码数据集-GitHub与Bitbucket-设计模式-2024 数据来源:互联网公开数据 标签:设计模式,Python,代码,软件工程,模式识别,机器学习,GitHub,Bitbucket,GoF,可执行代码

数据概述: 本数据集旨在改进现有设计模式检测开源数据集的局限性。现有数据集,如Nazar et al.和P-mart数据集,依赖于从开源项目中提取的不可执行文件,这些文件需要特定的项目依赖才能运行,且未能全面覆盖23种GoF设计模式。为了解决这些问题,我们开发了一个自定义网络爬虫,从GitHub和Bitbucket收集了1832个带标签的Python文件,确保每个文件都包含可执行的main部分。经过数据增强后,该数据集最终包含了35462个带标签的样本。

数据用途概述: 该数据集特别支持对设计模式的结构和行为进行分析,因为它允许通过代码执行进行运行时数据分析。它涵盖了所有26种GoF模式,与现有数据集相比,提供了更广泛、更动态的资源。该数据集适用于设计模式检测算法的开发和评估,软件工程研究,以及机器学习模型的训练。研究人员可以使用此数据集进行设计模式识别、代码理解、软件维护和重构等方面的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 14.56 MiB
最后更新 2025年4月26日
创建于 2025年4月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。