数据集概述
本数据集来自RWTH Aachen大学计算社会系统硕士项目,包含维基百科“气候变化”讨论页的原始数据及处理后的情感、毒性评分数据。原始数据通过GraWiTas工具解析为JSON格式,处理后数据使用VADER计算情感得分、Google Perspective API计算毒性得分,可用于研究气候变化讨论的文本特征与情感倾向。
文件详解
- 文件名称:Climate_change.comment_list.json
- 文件格式:JSON
- 字段映射介绍:维基百科“气候变化”讨论页的原始讨论数据,需清洗后用于情感与毒性评分计算
- 文件名称:Climate_change_cleaned_text_sentiment_scored_with_toxicity_scores.csv
- 文件格式:CSV
- 字段映射介绍:包含date(日期)、id(评论ID)、parent_id(父评论ID)、section(讨论板块)、user(用户)、clean_text(清洗后文本)、sentiment_compound(复合情感得分)、sentiment_positive/negative/neutral(正负中性情感得分)、sentiment_label(情感标签)、sentiment_label_extreme(极端情感标签)、toxicity_score(毒性得分)、identity_attack_score(身份攻击得分)等字段
数据来源
RWTH Aachen University Master's program in Computational Social Systems
适用场景
- 文本情感分析研究:利用VADER计算的情感得分,分析气候变化讨论中的情感倾向与分布
- 在线讨论毒性检测:基于Perspective API的毒性得分,研究讨论内容的攻击性与毒性特征
- 计算社会系统分析:结合维基百科讨论数据,探索在线社区关于气候变化话题的互动模式
- 学术研究支持:为社交媒体文本处理、情感计算等领域的研究提供标注数据集