数据集概述
本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据,包含数据、代码及标注指南,共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源,可用于分析不同强度仇恨言论的特征与识别方法。
文件详解
- 文档文件
- 文件名称:Online_supplement_1 Islamophobia annotation guidelines.docx
- 文件格式:DOCX
- 字段映射介绍:伊斯兰恐惧症仇恨言论标注指南文档
- 代码文件(共5个,格式均为.R)
- 文件名称:Online_supplement_1 code_5 visualizeResults.R、Online_supplement_1 code_1 cleanTweets.R、Online_supplement_1 code_4 createClassifier.R、Online_supplement_1 code_2 applywordVecs.R(另有1个R代码文件未展示具体名称)
- 字段映射介绍:包含数据可视化、推文清洗、分类器创建、词向量应用等功能代码
- 数据文件
- 文件名称:Wiki Mosques.txt
- 文件格式:TXT
- 字段映射介绍:包含清真寺相关名称文本(如Abbey Mills、Aziziye等)
- 文件名称:45 far right seed accounts.csv
- 文件格式:CSV
- 字段映射介绍:包含twitter_handles(推特账号)、twitter_ids(推特ID)两个字段,记录45个极右翼种子账号信息
- 文件名称:Online_supplement_1 word vectors.RData
- 文件格式:RData
- 字段映射介绍:词向量数据文件
数据来源
论文“Detecting weak and strong Islamophobic hate speech on social media”
适用场景
- 社交媒体仇恨言论检测研究:用于识别和区分社交媒体上强弱程度不同的伊斯兰恐惧症仇恨言论
- 自然语言处理模型训练:基于提供的代码和数据训练仇恨言论分类模型
- 极右翼账号分析:通过种子账号数据研究极右翼账号在社交媒体的活动特征
- 仇恨言论标注标准制定:参考标注指南建立统一的伊斯兰恐惧症仇恨言论标注规范