数据集

英语仇恨言论超集数据集

英语仇恨言论超集数据集数据来源：互联网公开数据
标签：仇恨言论,英语,社交媒体,自然语言处理,文本分类,歧视语言,偏见分析,数据集合并

数据概述
本数据集是一个包含360,495条帖子的超集，帖子被标注为是否包含仇恨言论。数据集来源于2024年4月可获取的所有公开的英语仇恨言论相关数据集，并通过系统性调查识别。此调查遵循联合国2019年对仇恨言论的定义：任何基于宗教、种族、国籍、性别或其他身份因素的攻击性或歧视性语言交流。数据集经过预处理，去重并统一标注为二分类（仇恨言论或非仇恨言论），同时保护用户隐私，用户名和链接被替换为固定标记。此外，数据集中新增了帖子作者的国家地理位置信息，该信息通过推特用户位置和Google Geocoding API推断得出，为研究仇恨言论的地理分布提供了支持。

数据用途概述
该数据集的主要用途是训练和评估仇恨言论检测模型，以及研究在线仇恨言论的传播和特征。研究人员可以利用此数据集识别仇恨言论的语言模式、分析不同国家或地区的仇恨言论分布，以及评估仇恨言论检测模型的性能。同时，数据集还可用于学术研究，探讨仇恨言论与文化、地域之间的关系。需要注意的是，此数据集不适用于训练生成式语言模型以生成仇恨内容。

数据与资源

英语仇恨言论超集数据集.zipZIP
22.47 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	22.47 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

英语仇恨言论超集数据集

数据与资源

附加信息

注册成功！