英语仇恨言论超集数据集

英语仇恨言论超集数据集 数据来源:互联网公开数据
标签:仇恨言论,英语,社交媒体,自然语言处理,文本分类,歧视语言,偏见分析,数据集合并

数据概述
本数据集是一个包含360,495条帖子的超集,帖子被标注为是否包含仇恨言论。数据集来源于2024年4月可获取的所有公开的英语仇恨言论相关数据集,并通过系统性调查识别。此调查遵循联合国2019年对仇恨言论的定义:任何基于宗教、种族、国籍、性别或其他身份因素的攻击性或歧视性语言交流。数据集经过预处理,去重并统一标注为二分类(仇恨言论或非仇恨言论),同时保护用户隐私,用户名和链接被替换为固定标记。此外,数据集中新增了帖子作者的国家地理位置信息,该信息通过推特用户位置和Google Geocoding API推断得出,为研究仇恨言论的地理分布提供了支持。

数据用途概述
该数据集的主要用途是训练和评估仇恨言论检测模型,以及研究在线仇恨言论的传播和特征。研究人员可以利用此数据集识别仇恨言论的语言模式、分析不同国家或地区的仇恨言论分布,以及评估仇恨言论检测模型的性能。同时,数据集还可用于学术研究,探讨仇恨言论与文化、地域之间的关系。需要注意的是,此数据集不适用于训练生成式语言模型以生成仇恨内容。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 22.47 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。