Stack_Overflow问题情感分类开发者与工具复现数据包

数据集概述

该数据集是SEMotion 2021论文《How Developers and Tools Categorize Sentiment in Stack Overflow Questions - A Pilot Study》的复现数据包,包含10个Stack Overflow问题文本及用户情感排序数据,支持复现开发者与工具对问题情感分类的对比研究。

文件详解

  • 数据文件:
  • question-text.csv:CSV格式,包含10个问题的基础信息,字段有Question Number(研究内问题编号)、Question ID(Stack Overflow问题ID)、Url(问题链接)、Question Title(问题标题)、Question Body(问题正文)
  • sentiment-ranking.csv:CSV格式,包含用户对问题的反馈数据,字段有Task(问题编号)、ID(用户ID)、问题相关反馈字段(分号分隔列表)
  • 文档文件:
  • readme.txt:TXT格式,可能包含数据集说明
  • Part_B_10_questions.pdf:PDF格式,10个研究问题的文档
  • Questions_Criteria.docx:DOCX格式,问题筛选标准文档
  • conversion_logic.txt:TXT格式,说明SentiStrength-SE和StanfordNLP工具的结果格式转换逻辑

适用场景

  • 自然语言处理研究:对比开发者与工具对技术问题的情感分类差异
  • 开发者社区分析:分析Stack Overflow问题特征对回答意愿的影响
  • 情感分析工具评估:验证情感分析工具在技术文本场景的有效性
  • 人机交互研究:探究开发者对技术问题的情感感知与反馈行为
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.39 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。