开发者代码注释实践多源讨论研究复现数据包

数据集概述

本数据集是论文《What do Developers Discuss about Code Comments?》的复现数据包,包含支持研究问题RQ1和RQ2的所有数据文件,涵盖论文附录、标签与主题清单、Stack Exchange查询接口说明,以及LDA分析的输入输出数据、原始问答数据和人工分析分类结果等内容。

文件详解

  • 根目录文件
  • Appendix.pdf:PDF格式,包含论文的补充表格附录
  • Tags-topics.md:MD格式,记录研究中从Stack Overflow选取的标签和从Quora选取的主题(用于RQ1和RQ2)
  • Stack-exchange-query.md:MD格式,Stack Exchange Explorer中提取帖子使用的查询接口说明
  • RQ1目录
  • LDA_input子目录
  • combined-so-quora-mallet-metadata.csv:CSV格式,用于LDA分析的Stack Overflow和Quora问题数据
  • topic-input.mallet:MALLET工具的输入文件
  • LDA_output/Mallet子目录
  • output_csv子目录
  • docs-in-topics.csv:CSV格式,每个主题对应的文档数据
  • topic-words.csv:CSV格式,每个主题的最相关词汇
  • topics-in-docs.csv:CSV格式,每个文档的主题概率分布
  • topics-metadata.csv:CSV格式,包含文档元数据和主题概率的文件
  • output_html子目录
  • all_topics.html:HTML格式,所有主题的可浏览结果
  • Docs/:存储文档相关HTML文件的目录
  • Topics/:存储主题相关HTML文件的目录
  • RQ2目录
  • datasource_rawdata子目录
  • quora.csv:CSV格式,经Makar工具预处理后的Quora数据集(已移除HTML标签)
  • stackoverflow.csv:CSV格式,经Makar工具预处理后的Stack Overflow数据集
  • manual_analysis_output子目录
  • stackoverflow_quora_taxonomy.xlsx:XLSX格式,包含Stack Overflow和Quora数据的分类结果,含分类体系描述、帖子相关性标注及分类信息

数据来源

论文"What do Developers Discuss about Code Comments?"的复现数据包(RP-commenting-practices-multiple-sources)

适用场景

  • 软件开发领域代码注释研究: 分析开发者在Stack Overflow和Quora上关于代码注释的讨论主题与关注点
  • 自然语言处理应用: 基于LDA输入输出数据,研究技术社区文本的主题建模方法与效果
  • 开发者行为分析: 通过人工分类结果,探究开发者对代码注释的讨论类型与分类特征
  • 技术社区数据挖掘: 利用Stack Exchange查询接口说明,复现或扩展技术问答平台的数据提取流程
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 45.38 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。