StackOverflow讨论中技术债务自动化识别论文复现包

数据集概述

本数据集是论文《Automated Technical Debt Identification in StackOverflow Discussions Using Machine Learning and Natural Language Processing》的复现包,包含技术债务识别实验相关的数据集、模型结果、可视化图表及源代码,支持研究复现与扩展分析。

文件详解

  • 数据文件:
  • metrics_results.csv:CSV格式,记录机器学习模型评估指标,包含字段:Model(模型名称)、DataFrame(数据集)、Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1 Score(F1分数)、Confusion Matrix(混淆矩阵)
  • dataset_technical_debt.csv:CSV格式,技术债务数据集,包含字段:Id(唯一标识)、Category(技术债务类别)、Body(StackOverflow讨论内容)
  • 可视化文件(JPG格式):
  • word_cloud_infrastructure.jpg:基础设施技术债务关键词词云
  • word_cloud_code.jpg:代码技术债务关键词词云
  • word_cloud_design.jpg:设计技术债务关键词词云
  • word_cloud_test.jpg:测试技术债务关键词词云
  • word_cloud_architecture.jpg:架构技术债务关键词词云
  • 代码文件:
  • source_code_Automated_Technical_Debt_Identification_in_StackOverflow_Discussions_Using_Machine_Learning_and_Natural_Language_Processing.ipynb:Jupyter Notebook格式,实验源代码

适用场景

  • 软件工程研究:复现基于机器学习与自然语言处理的技术债务识别实验
  • 自然语言处理应用:分析StackOverflow讨论中的技术债务文本特征
  • 技术债务管理:探索自动化识别技术债务的模型性能与优化方向
  • 数据可视化研究:参考技术债务类别关键词词云的构建方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.72 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。