数据集

肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间

肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间数据来源：互联网公开数据标签：仇恨言论,社交媒体,肯尼亚,选举,多语言,代码切换,文本分类,自然语言处理,情感分析数据概述：本数据集由肯尼亚非洲拿撒勒大学的研究人员开发，收录了2017年肯尼亚总统选举期间的社交媒体推文，共计4.8万条。这些推文由至少3位标注者手动标注，分为仇恨言论（3181条）、冒犯性言论（8543条）和非仇恨言论（36333条）三类。标注结果依据多数投票原则确定。数据收集时间跨度为大选前的三个月以及重选结果公布后的两周。数据主要通过自定义爬虫获取，以弥补Twitter API在数据收集上的时间窗口限制。数据集包含了URL移除和用户名替换等预处理步骤。

数据用途概述：该数据集主要用于仇恨言论和冒犯性语言检测模型的研究与开发。研究人员可以利用此数据训练和评估文本分类模型，从而提升对多语言环境（尤其是代码切换现象）下仇恨言论的识别能力。数据集有助于深入理解肯尼亚社交媒体上的仇恨言论，为打击仇恨言论、促进包容性提供技术支持。此外，该数据集也可用于社会学研究、政治传播分析等领域。

数据与资源

肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间.zipZIP
2.53 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.53 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

肯尼亚社交媒体仇恨言论检测数据集-2017年肯尼亚大选期间

数据与资源

附加信息

注册成功！