程序员幽默子版块提交内容研究复现数据包

数据集概述

本数据集是论文《What Makes Programmers Laugh? Exploring the Submissions of the Subreddit r/ProgrammerHumor.》的复现数据包,包含程序员幽默子版块(r/ProgrammerHumor)的内容数据、标签文件、分析代码及可视化结果,为研究程序员幽默的构成要素提供复现支持。

文件详解

  • 数据文件(CSV格式):
  • data.csv:核心数据文件,可能包含子版块提交的基础信息
  • imageLabelM.csv:含标题、正文、图片文本、幽默理论标签等字段的图片标注数据
  • imageLabelL.csv:图片标注数据文件
  • textLabelingM.csv:文本标注数据文件
  • textLabelingL.csv:文本标注数据文件
  • consensusData.csv:含评分、幽默理论、NSFW标识、主题等字段的共识数据
  • 代码文件:
  • agreementKappa.R:计算一致性Kappa值的R代码
  • rq124.R:研究问题分析的R代码
  • consensus.R:共识数据处理的R代码
  • lda.py:潜在狄利克雷分配(LDA)主题建模的Python代码
  • 可视化文件:
  • perplexity.png:困惑度分析结果的图片文件

适用场景

  • 幽默理论研究:分析程序员幽默与优越论、不协调论等幽默理论的关联
  • 自然语言处理应用:基于文本内容的幽默主题建模与分类
  • 社交媒体内容分析:探究程序员社区幽默内容的特征与传播规律
  • 跨模态数据研究:融合文本与图片信息的幽默感知分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 48.5 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。