中文有毒语言数据集

中文有毒语言数据集 数据来源:互联网公开数据 标签:中文,有毒语言,文本分析,机器学习,自然语言处理,伦理问题,多级分类,基准测试

数据概述: 本数据集收录了从知乎和贴吧爬取的近12000条评论,涵盖直接和间接有毒样本。数据集包括对评论的细粒度标注,分为是否为有毒语言、有毒类型、目标群体和表达类别四个维度。有毒类型包括一般攻击性语言和仇恨言论,目标群体涵盖LGBTQ、地区偏见、性别歧视、种族歧视和其他类别,表达类别包括明示仇恨、隐示仇恨和报告。数据集旨在为中文有毒语言的细粒度检测提供资源和基准。

数据用途概述: 该数据集适用于中文有毒语言的检测和分类研究,支持自然语言处理任务中的文本表示增强。研究人员可以利用数据集开发和评估有毒言论检测模型;伦理学家和政策制定者可以参考数据集理解和应对网络中的有毒言论问题;教育者可以使用数据集进行相关主题的教学和培训。

举例: 数据集中的每个评论都附有一系列标签,例如: - 是否为有毒语言:1(表示有毒) - 有毒类型:2(表示仇恨言论) - 表达类别:1(表示明示仇恨) - 目标群体:[2](表示性别歧视)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.55 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。