Jigsaw毒性评论分类无意偏见检测数据集

Jigsaw毒性评论分类无意偏见检测数据集 数据来源:互联网公开数据 标签:Jigsaw,毒性评论,分类,机器学习,自然语言处理,偏见检测,数据集

数据概述: 本数据集来自Jigsaw Unintended Bias in Toxicity Classification竞赛,包含大量用户评论及其对应的毒性评分。数据集旨在帮助研究者识别和减少自然语言处理模型在毒性评论分类时的无意偏见。数据集包含18,000条评论,每条评论经过多个标注者评分,标尺涵盖了从轻微到极端的毒性程度,同时记录了评论的多种属性,如语言、用户匿名ID等。

数据用途概述: 该数据集适用于机器学习和自然语言处理领域的研究,特别是在开发和评估毒性评论分类模型时,可用于训练和验证模型以识别和减轻无意偏见。研究人员可以利用此数据集改进算法,确保模型在处理敏感话题和评论时更加公平和准确。此外,数据集也适合用于教育和培训,帮助学习者了解偏见检测在自然语言处理中的重要性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 845.42 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。