仇恨言论识别与检测数据集-ToxiGen研究专用-xenowing

仇恨言论识别与检测数据集-ToxiGen研究专用-xenowing 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,自然语言处理,文本分类,对抗生成,ToxiGen,少数群体,歧视言论 数据概述: 本数据集专为仇恨言论识别与检测研究设计,是ToxiGen研究论文中使用的数据集。数据集包含了超过27万条关于13个少数群体的仇恨言论和非仇恨言论。每个少数群体的数据都包含“良性言论”和“仇恨言论”两种类别,为构建和评估仇恨言论检测模型提供了丰富的数据基础。数据涵盖了不同少数群体的多样化表达,有助于研究人员开发更全面、更准确的仇恨言论识别技术。

少数群体包括: 黑人 亚洲人 原住民 拉丁裔 犹太人 中国人 墨西哥人 中东人 LGBTQ+群体 女性 精神疾病患者 身体残疾人士 此外,数据集还包含了“top-k (all)”和“ALICE (all)”类别的数据,为模型训练和评估提供了更全面的支持。

数据用途概述: 该数据集主要用于自然语言处理领域的研究,特别是仇恨言论识别、检测和对抗生成模型的开发。研究人员可以利用此数据集训练、测试和评估仇恨言论检测模型,探索不同少数群体的仇恨言论模式;也可以用于开发对抗性攻击,评估模型的鲁棒性;同时,该数据集也适用于社会学、传播学等领域的仇恨言论研究,分析仇恨言论的传播规律和影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 12.79 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。