肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间

肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,肯尼亚,选举,多语言,代码切换,文本分类,自然语言处理,情感分析 数据概述: 本数据集由肯尼亚非洲拿撒勒大学的研究人员开发,收录了2017年肯尼亚总统选举期间的社交媒体推文,共计4.8万条。这些推文由至少3位标注者手动标注,分为仇恨言论(3181条)、冒犯性言论(8543条)和非仇恨言论(36333条)三类。标注结果依据多数投票原则确定。数据收集时间跨度为大选前的三个月以及重选结果公布后的两周。数据主要通过自定义爬虫获取,以弥补Twitter API在数据收集上的时间窗口限制。数据集包含了URL移除和用户名替换等预处理步骤。

数据用途概述: 该数据集主要用于仇恨言论和冒犯性语言检测模型的研究与开发。研究人员可以利用此数据训练和评估文本分类模型,从而提升对多语言环境(尤其是代码切换现象)下仇恨言论的识别能力。数据集有助于深入理解肯尼亚社交媒体上的仇恨言论,为打击仇恨言论、促进包容性提供技术支持。此外,该数据集也可用于社会学研究、政治传播分析等领域。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.53 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。