WSB_Based_GameStop事件Reddit社区评论支持倾向与行为意图标注完整数据集2021

数据集概述

本数据集为2021年GameStop事件高峰期Reddit r/wallstreetbets社区评论随机抽样,共5000条。其中3000条由两位标注者共同标注并达成一致,600条经双人标注后由作者修正,剩余1400条单人标注。数据集提供支持倾向(Support)和行为意图(Intent)两类人工标注,适用于研究散户群体在极端金融事件中的情绪、立场与行动意图表达。

文件详解

  • 文件名称:Annotation rules.docx
  • 文件格式:DOCX
  • 字段映射介绍:详细标注规则说明文档,定义Support(Y/Yes、N/No、U/Unsure、I/Informative)和Intent(Y/Yes、N/No、M/Maybe、U/Unsure、I/Informative)两类标签标准及示例
  • 文件名称:annotation file 3600 done 1142022.csv
  • 文件格式:CSV
  • 字段映射介绍:核心标注数据,主要字段包括link_id(帖子ID)、parent_id(父评论ID)、User(匿名用户名)、Text(原始评论文本)、Support(支持倾向标签)、Intent(行为意图标签)、annotator_info(标注者信息)

数据集覆盖2021年1月GameStop事件最活跃时期)

数据来源

论文“Data from: Within-host competition in genetically diverse malaria infections”关联的GameStop事件社交媒体研究(具体出处未在文件中提供)

适用场景

  • 金融舆情与情绪分析:研究GameStop事件期间WSB社区对GME及相关股票的支持态度演变
  • 散户行为意图识别:训练分类模型预测用户是否表达“买入/持有/卖出”等投资意图
  • 标注一致性与众包质量研究:利用3000条双人一致标注数据评估标注者间信度(Cohen's Kappa)
  • 极端金融事件传播机制:分析支持/意图标签在评论线程中的传播路径与放大效应
  • 自然语言处理教学数据集:含完整标注规则与多级别标注质量,可用于金融领域NLP任务基准测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.1 MiB
最后更新 2026年1月3日
创建于 2026年1月3日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。