数据集

仇恨言论识别与检测数据集-ToxiGen研究专用-xenowing

仇恨言论识别与检测数据集-ToxiGen研究专用-xenowing 数据来源：互联网公开数据标签：仇恨言论,社交媒体,自然语言处理,文本分类,对抗生成,ToxiGen,少数群体,歧视言论数据概述：本数据集专为仇恨言论识别与检测研究设计，是ToxiGen研究论文中使用的数据集。数据集包含了超过27万条关于13个少数群体的仇恨言论和非仇恨言论。每个少数群体的数据都包含“良性言论”和“仇恨言论”两种类别，为构建和评估仇恨言论检测模型提供了丰富的数据基础。数据涵盖了不同少数群体的多样化表达，有助于研究人员开发更全面、更准确的仇恨言论识别技术。

少数群体包括：黑人亚洲人原住民拉丁裔犹太人中国人墨西哥人中东人 LGBTQ+群体女性精神疾病患者身体残疾人士此外，数据集还包含了“top-k (all)”和“ALICE (all)”类别的数据，为模型训练和评估提供了更全面的支持。

数据用途概述：该数据集主要用于自然语言处理领域的研究，特别是仇恨言论识别、检测和对抗生成模型的开发。研究人员可以利用此数据集训练、测试和评估仇恨言论检测模型，探索不同少数群体的仇恨言论模式；也可以用于开发对抗性攻击，评估模型的鲁棒性；同时，该数据集也适用于社会学、传播学等领域的仇恨言论研究，分析仇恨言论的传播规律和影响。

数据与资源

versions_20250407011738.zipZIP
12.79 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	12.79 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

仇恨言论识别与检测数据集-ToxiGen研究专用-xenowing

数据与资源

附加信息

注册成功！