Jigsaw多语言有毒评论分类预处理数据集

Jigsaw多语言有毒评论分类预处理数据集 数据来源:互联网公开数据 标签:自然语言处理,文本分类,有毒评论,多语言,预处理,机器学习,XLM-RoBERTa,Jigsaw 数据概述: 本数据集包含Jigsaw多语言有毒评论分类任务的预处理后的CSV文件。数据使用Hugging Face Transformers库中的tokenizer进行分词处理,该tokenizer基于tf-xlm-roberta-large模型。训练数据遵循了Kaggle上关于Jigsaw TPU XLM-RoBERta的notebook的处理方式。数据集经过预处理,适合用于训练和评估多语言有毒评论分类模型。 数据用途概述: 该数据集可用于训练和评估多语言有毒评论分类模型,例如用于社交媒体内容审核、在线论坛管理等场景。研究人员和开发者可以利用该数据集进行模型训练、调优和性能评估。此外,该数据集也适用于自然语言处理领域的教学和研究,帮助学习者理解文本分类任务和多语言处理技术。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 180.07 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。