数据集

StackOverflow讨论中技术债务自动化识别论文复现包

数据集概述

本数据集是论文《Automated Technical Debt Identification in StackOverflow Discussions Using Machine Learning and Natural Language Processing》的复现包，包含技术债务识别实验相关的数据集、模型结果、可视化图表及源代码，支持研究复现与扩展分析。

文件详解

数据文件：
metrics_results.csv：CSV格式，记录机器学习模型评估指标，包含字段：Model（模型名称）、DataFrame（数据集）、Accuracy（准确率）、Precision（精确率）、Recall（召回率）、F1 Score（F1分数）、Confusion Matrix（混淆矩阵）
dataset_technical_debt.csv：CSV格式，技术债务数据集，包含字段：Id（唯一标识）、Category（技术债务类别）、Body（StackOverflow讨论内容）
可视化文件（JPG格式）：
word_cloud_infrastructure.jpg：基础设施技术债务关键词词云
word_cloud_code.jpg：代码技术债务关键词词云
word_cloud_design.jpg：设计技术债务关键词词云
word_cloud_test.jpg：测试技术债务关键词词云
word_cloud_architecture.jpg：架构技术债务关键词词云
代码文件：
source_code_Automated_Technical_Debt_Identification_in_StackOverflow_Discussions_Using_Machine_Learning_and_Natural_Language_Processing.ipynb：Jupyter Notebook格式，实验源代码

适用场景

软件工程研究：复现基于机器学习与自然语言处理的技术债务识别实验
自然语言处理应用：分析StackOverflow讨论中的技术债务文本特征
技术债务管理：探索自动化识别技术债务的模型性能与优化方向
数据可视化研究：参考技术债务类别关键词词云的构建方法

数据与资源

10728956.zipZIP
4.72 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	4.72 MiB
最后更新	2025年12月16日
创建于	2025年12月16日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

StackOverflow讨论中技术债务自动化识别论文复现包

数据集概述

文件详解

适用场景

数据与资源

附加信息

注册成功！