Jigsaw毒性评论多语言分类数据集

Jigsaw毒性评论多语言分类数据集

数据来源:互联网公开数据

标签:文本分类, 毒性检测, 自然语言处理, 多语言, 评论, 社交媒体, 文本分析, 机器学习

数据概述: 本数据集由Pavel Ostyakov创建,旨在支持多语言环境下的毒性评论分类任务。 数据集包含了多种语言的文本评论,并标注了毒性标签。 该数据集来源于Kaggle竞赛"Jigsaw 毒性评论分类挑战"。

数据用途概述: 该数据集主要用于训练和评估多语言毒性评论检测模型。 研究人员和开发者可以利用此数据集开发能够识别和过滤社交媒体、论坛等平台上的有害言论的算法。 此外,该数据集也适用于自然语言处理、文本挖掘、情感分析等领域的研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 76.61 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。