数据集概述
本数据集是论文《What do Developers Discuss about Code Comments?》的复现数据包,包含支持研究问题RQ1和RQ2的所有数据文件,涵盖论文附录、标签与主题清单、Stack Exchange查询接口说明,以及LDA分析的输入输出数据、原始问答数据和人工分析分类结果等内容。
文件详解
- 根目录文件
Appendix.pdf:PDF格式,包含论文的补充表格附录
Tags-topics.md:MD格式,记录研究中从Stack Overflow选取的标签和从Quora选取的主题(用于RQ1和RQ2)
Stack-exchange-query.md:MD格式,Stack Exchange Explorer中提取帖子使用的查询接口说明
- RQ1目录
- LDA_input子目录
combined-so-quora-mallet-metadata.csv:CSV格式,用于LDA分析的Stack Overflow和Quora问题数据
topic-input.mallet:MALLET工具的输入文件
- LDA_output/Mallet子目录
- output_csv子目录
docs-in-topics.csv:CSV格式,每个主题对应的文档数据
topic-words.csv:CSV格式,每个主题的最相关词汇
topics-in-docs.csv:CSV格式,每个文档的主题概率分布
topics-metadata.csv:CSV格式,包含文档元数据和主题概率的文件
- output_html子目录
all_topics.html:HTML格式,所有主题的可浏览结果
Docs/:存储文档相关HTML文件的目录
Topics/:存储主题相关HTML文件的目录
- RQ2目录
- datasource_rawdata子目录
quora.csv:CSV格式,经Makar工具预处理后的Quora数据集(已移除HTML标签)
stackoverflow.csv:CSV格式,经Makar工具预处理后的Stack Overflow数据集
- manual_analysis_output子目录
stackoverflow_quora_taxonomy.xlsx:XLSX格式,包含Stack Overflow和Quora数据的分类结果,含分类体系描述、帖子相关性标注及分类信息
数据来源
论文"What do Developers Discuss about Code Comments?"的复现数据包(RP-commenting-practices-multiple-sources)
适用场景
- 软件开发领域代码注释研究: 分析开发者在Stack Overflow和Quora上关于代码注释的讨论主题与关注点
- 自然语言处理应用: 基于LDA输入输出数据,研究技术社区文本的主题建模方法与效果
- 开发者行为分析: 通过人工分类结果,探究开发者对代码注释的讨论类型与分类特征
- 技术社区数据挖掘: 利用Stack Exchange查询接口说明,复现或扩展技术问答平台的数据提取流程