数据集

Islamophobic_Hate_Speech_Based社交媒体强弱仇恨言论检测数据2019

数据集概述

本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据，包含数据、代码及标注指南，共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源，可用于分析不同强度仇恨言论的特征与识别方法。

文件详解

文档文件
文件名称：Online_supplement_1 Islamophobia annotation guidelines.docx
文件格式：DOCX
字段映射介绍：伊斯兰恐惧症仇恨言论标注指南文档
代码文件（共5个，格式均为.R）
文件名称：Online_supplement_1 code_5 visualizeResults.R、Online_supplement_1 code_1 cleanTweets.R、Online_supplement_1 code_4 createClassifier.R、Online_supplement_1 code_2 applywordVecs.R（另有1个R代码文件未展示具体名称）
字段映射介绍：包含数据可视化、推文清洗、分类器创建、词向量应用等功能代码
数据文件
文件名称：Wiki Mosques.txt
文件格式：TXT
字段映射介绍：包含清真寺相关名称文本（如Abbey Mills、Aziziye等）
文件名称：45 far right seed accounts.csv
文件格式：CSV
字段映射介绍：包含twitter_handles（推特账号）、twitter_ids（推特ID）两个字段，记录45个极右翼种子账号信息
文件名称：Online_supplement_1 word vectors.RData
文件格式：RData
字段映射介绍：词向量数据文件

数据来源

论文“Detecting weak and strong Islamophobic hate speech on social media”

适用场景

社交媒体仇恨言论检测研究：用于识别和区分社交媒体上强弱程度不同的伊斯兰恐惧症仇恨言论
自然语言处理模型训练：基于提供的代码和数据训练仇恨言论分类模型
极右翼账号分析：通过种子账号数据研究极右翼账号在社交媒体的活动特征
仇恨言论标注标准制定：参考标注指南建立统一的伊斯兰恐惧症仇恨言论标注规范

数据与资源

3463560.zipZIP
285.95 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	285.95 MiB
最后更新	2026年1月17日
创建于	2026年1月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。