数据集概述
本数据集是论文《How Do Users Revise Architectural Related Questions on Stack Overflow: An Empirical Study》的复现包,包含从Stack Overflow获取的架构相关问题(ARPs)原始数据、筛选结果、标注数据、访谈记录及分析文件,支持论文研究问题的验证与复现。
文件详解
该数据集为压缩包格式,内部包含6个核心目录,具体说明如下:
- raw data目录:
- 包含36,417条帖子原始数据,以及用于从Stack Exchange查询接口获取ARPs的SQL查询语句文件
- filtered ARPs目录:
- 包含从原始数据筛选出的13,205条候选ARPs,以及论文第一个研究问题(RQ1)的数据分析结果文件
- randomly selected posts and labeling results目录:
- 包含1,068条随机选取的帖子及标注结果(共21条有效ARPs,其中3条不含“architect*”术语、18条含该术语)
- relevant ARPs for answering RQs目录:
- 包含4,114条带修订信息的ARPs,用于支持论文后三个研究问题(RQ2、RQ3、RQ4)的分析
- interview responses目录:
- 包含11份软件从业者的访谈记录文件,用于评估ARQ修订相关的分类体系
- data extraction and analysis目录:
- 包含MAXQDA格式的数据分析文件Data Labeling & Encoding for RQs.mx20,需用MAXQDA 2020及以上版本打开,记录RQ2-RQ4的标注与编码结果
数据来源
Stack Exchange
适用场景
- 软件工程研究:分析Stack Overflow平台上架构相关问题的用户修订行为模式
- 实证研究复现:支持原论文研究结论的验证与扩展分析
- 社区行为分析:探究技术问答社区中专业问题的优化机制
- 定性研究方法:作为MAXQDA工具应用于文本标注与编码的案例数据
- 软件架构领域:识别开发者在架构问题描述中的常见修订需求与痛点