数据集概述
本数据集为2021年GameStop事件高峰期Reddit r/wallstreetbets社区评论随机抽样,共5000条。其中3000条由两位标注者共同标注并达成一致,600条经双人标注后由作者修正,剩余1400条单人标注。数据集提供支持倾向(Support)和行为意图(Intent)两类人工标注,适用于研究散户群体在极端金融事件中的情绪、立场与行动意图表达。
文件详解
- 文件名称:Annotation rules.docx
- 文件格式:DOCX
- 字段映射介绍:详细标注规则说明文档,定义Support(Y/Yes、N/No、U/Unsure、I/Informative)和Intent(Y/Yes、N/No、M/Maybe、U/Unsure、I/Informative)两类标签标准及示例
- 文件名称:annotation file 3600 done 1142022.csv
- 文件格式:CSV
- 字段映射介绍:核心标注数据,主要字段包括link_id(帖子ID)、parent_id(父评论ID)、User(匿名用户名)、Text(原始评论文本)、Support(支持倾向标签)、Intent(行为意图标签)、annotator_info(标注者信息)
数据集覆盖2021年1月GameStop事件最活跃时期)
数据来源
论文“Data from: Within-host competition in genetically diverse malaria infections”关联的GameStop事件社交媒体研究(具体出处未在文件中提供)
适用场景
- 金融舆情与情绪分析:研究GameStop事件期间WSB社区对GME及相关股票的支持态度演变
- 散户行为意图识别:训练分类模型预测用户是否表达“买入/持有/卖出”等投资意图
- 标注一致性与众包质量研究:利用3000条双人一致标注数据评估标注者间信度(Cohen's Kappa)
- 极端金融事件传播机制:分析支持/意图标签在评论线程中的传播路径与放大效应
- 自然语言处理教学数据集:含完整标注规则与多级别标注质量,可用于金融领域NLP任务基准测试