网络欺凌毒性文本分类数据集

网络欺凌毒性文本分类数据集 数据来源:互联网公开数据
标签:网络欺凌,毒性文本,文本分类,自然语言处理,情感分析,内容安全,数据集

数据概述:
本数据集基于网络公开数据整理而成,整合了来自Kaggle、Twitter和YouTube等多个来源的文本数据。数据经过预处理,去除了数字、URL链接、用户标签、标点符号和冗余字符,并将文本转换为小写形式。每条文本均标注了毒性级别,0表示无毒性,1和2表示中等毒性,3、4、5则表示高度毒性,用于衡量文本的攻击性或仇恨程度。

数据用途概述:
该数据集适用于网络欺凌检测、毒性文本识别、情感分析等场景,能够为相关研究和应用提供数据支持。研究人员可利用此数据集进行模型训练和算法优化,评估不同算法在毒性文本分类任务中的性能。企业或开发者可将其用于内容审核系统,识别和过滤网络上的恶意言论,维护网络环境的安全性。此外,数据集也适合用于教育和学术研究,帮助相关领域学者深入了解网络欺凌行为的特征及其对社会的影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.33 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。