程序员幽默子版块提交内容研究复现数据包

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

程序员幽默子版块提交内容研究复现数据包

数据集概述

本数据集是论文《What Makes Programmers Laugh? Exploring the Submissions of the Subreddit r/ProgrammerHumor.》的复现数据包，包含程序员幽默子版块（r/ProgrammerHumor）的内容数据、标签文件、分析代码及可视化结果，为研究程序员幽默的构成要素提供复现支持。

文件详解

数据文件（CSV格式）：
data.csv：核心数据文件，可能包含子版块提交的基础信息
imageLabelM.csv：含标题、正文、图片文本、幽默理论标签等字段的图片标注数据
imageLabelL.csv：图片标注数据文件
textLabelingM.csv：文本标注数据文件
textLabelingL.csv：文本标注数据文件
consensusData.csv：含评分、幽默理论、NSFW标识、主题等字段的共识数据
代码文件：
agreementKappa.R：计算一致性Kappa值的R代码
rq124.R：研究问题分析的R代码
consensus.R：共识数据处理的R代码
lda.py：潜在狄利克雷分配（LDA）主题建模的Python代码
可视化文件：
perplexity.png：困惑度分析结果的图片文件

适用场景

幽默理论研究：分析程序员幽默与优越论、不协调论等幽默理论的关联
自然语言处理应用：基于文本内容的幽默主题建模与分类
社交媒体内容分析：探究程序员社区幽默内容的特征与传播规律
跨模态数据研究：融合文本与图片信息的幽默感知分析

数据与资源

11124117.zipZIP
48.50 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	48.5 MiB
最后更新	2025年12月21日
创建于	2025年12月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？