恶意评论分类数据集

恶意评论分类数据集

数据来源:互联网公开数据

标签:恶意评论,网络仇恨,在线 abuse,文本分类,机器学习,社会媒体分析,数据挖掘

数据概述: 本数据集旨在帮助识别和分类恶意评论,包含训练集和测试集。训练集约有159,000个样本,测试集约有153,000个样本。每个样本包含8个字段:Id(唯一标识符)、Comments(评论内容)、Malignant(恶意标签)、Highly Malignant(高度恶意标签)、Rude(无礼标签)、Threat(威胁标签)、Abuse(滥用标签)、Loathe(仇恨标签)。标签值为0或1,分别表示非恶意或恶意。数据集涵盖了多种恶意评论类型,如仇恨、威胁、滥用和无礼等。

数据用途概述: 该数据集适用于训练和评估恶意评论检测模型,支持社交平台的内容审核,帮助研究人员和开发者开发高效的文本分类算法,以及用于教育和培训场景。通过分析数据集,可以识别潜在的恶意评论并采取相应措施,改善在线社区环境。

数据集描述: 1. Id:唯一标识符,确保每个评论的唯一性。 2. Comments:评论内容,来自多个社交平台。 3. Malignant:恶意标签,1表示恶意,0表示非恶意。 4. Highly Malignant:高度恶意标签,1表示高度恶意,0表示非高度恶意。 5. Rude:无礼标签,1表示无礼,0表示非无礼。 6. Threat:威胁标签,1表示威胁,0表示非威胁。 7. Abuse:滥用标签,1表示滥用,0表示非滥用。 8. Loathe:仇恨标签,1表示仇恨,0表示非仇恨。

本数据集为机器学习和自然语言处理研究提供了宝贵资源,支持开发有效的恶意评论检测系统,促进健康和谐的在线交流环境。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 49.95 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。