数据集概述
本数据集是论文《Automated Technical Debt Identification in StackOverflow Discussions Using Machine Learning and Natural Language Processing》的复现包,包含技术债务识别实验相关的数据集、模型结果、可视化图表及源代码,支持研究复现与扩展分析。
文件详解
- 数据文件:
- metrics_results.csv:CSV格式,记录机器学习模型评估指标,包含字段:Model(模型名称)、DataFrame(数据集)、Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1 Score(F1分数)、Confusion Matrix(混淆矩阵)
- dataset_technical_debt.csv:CSV格式,技术债务数据集,包含字段:Id(唯一标识)、Category(技术债务类别)、Body(StackOverflow讨论内容)
- 可视化文件(JPG格式):
- word_cloud_infrastructure.jpg:基础设施技术债务关键词词云
- word_cloud_code.jpg:代码技术债务关键词词云
- word_cloud_design.jpg:设计技术债务关键词词云
- word_cloud_test.jpg:测试技术债务关键词词云
- word_cloud_architecture.jpg:架构技术债务关键词词云
- 代码文件:
- source_code_Automated_Technical_Debt_Identification_in_StackOverflow_Discussions_Using_Machine_Learning_and_Natural_Language_Processing.ipynb:Jupyter Notebook格式,实验源代码
适用场景
- 软件工程研究:复现基于机器学习与自然语言处理的技术债务识别实验
- 自然语言处理应用:分析StackOverflow讨论中的技术债务文本特征
- 技术债务管理:探索自动化识别技术债务的模型性能与优化方向
- 数据可视化研究:参考技术债务类别关键词词云的构建方法