Jigsaw毒性评论标注数据集-评论毒性评估与分析

Jigsaw毒性评论标注数据集-评论毒性评估与分析 数据来源:互联网公开数据 标签:毒性评论,自然语言处理,文本分类,情感分析,仇恨言论,冒犯性语言,标注数据,社交媒体,机器学习 数据概述: 本数据集包含了对评论文本进行毒性评估的标注数据,旨在用于训练和评估毒性评论检测模型。数据集由两部分组成:第一部分为评论文本的分类结果,将评论分为中立、冒犯性或仇恨言论三类;第二部分为标注者之间对分类结果的共识程度,提供了标注者之间意见一致性的概率信息。

数据来源包括:原始数据集由dataista0(Julián Peller)提供,标注共识数据来源于Davidson, Thomas 等人在论文《Automated Hate Speech Detection and the Problem of Offensive Language》中发布的数据。

数据用途概述: 该数据集可用于训练和评估各种自然语言处理模型,特别是用于检测和识别社交媒体等平台上的毒性评论。研究人员可以利用该数据进行文本分类、情感分析、仇恨言论检测等研究,从而开发更有效的工具来识别和过滤有害内容。同时,该数据集也适用于研究标注者之间意见一致性对模型性能的影响,以及探索如何提高模型对不同类型毒性言论的识别能力。此外,该数据也可用于教育目的,帮助学生理解文本分类、情感分析等概念,以及分析社交媒体上的语言暴力现象。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 59.07 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。