数据集

Jigsaw多语言有毒评论分类预处理数据集

Jigsaw多语言有毒评论分类预处理数据集数据来源：互联网公开数据标签：自然语言处理,文本分类,有毒评论,多语言,预处理,机器学习,XLM-RoBERTa,Jigsaw 数据概述：本数据集包含Jigsaw多语言有毒评论分类任务的预处理后的CSV文件。数据使用Hugging Face Transformers库中的tokenizer进行分词处理，该tokenizer基于tf-xlm-roberta-large模型。训练数据遵循了Kaggle上关于Jigsaw TPU XLM-RoBERta的notebook的处理方式。数据集经过预处理，适合用于训练和评估多语言有毒评论分类模型。数据用途概述：该数据集可用于训练和评估多语言有毒评论分类模型，例如用于社交媒体内容审核、在线论坛管理等场景。研究人员和开发者可以利用该数据集进行模型训练、调优和性能评估。此外，该数据集也适用于自然语言处理领域的教学和研究，帮助学习者理解文本分类任务和多语言处理技术。

数据与资源

Jigsaw多语言有毒评论分类预处理数据集.zipZIP
180.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	180.07 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Jigsaw多语言有毒评论分类预处理数据集

数据与资源

附加信息

注册成功！