恶意评论分类数据集
数据来源:互联网公开数据
标签:恶意评论,网络仇恨,在线 abuse,文本分类,机器学习,社会媒体分析,数据挖掘
数据概述:
本数据集旨在帮助识别和分类恶意评论,包含训练集和测试集。训练集约有159,000个样本,测试集约有153,000个样本。每个样本包含8个字段:Id(唯一标识符)、Comments(评论内容)、Malignant(恶意标签)、Highly Malignant(高度恶意标签)、Rude(无礼标签)、Threat(威胁标签)、Abuse(滥用标签)、Loathe(仇恨标签)。标签值为0或1,分别表示非恶意或恶意。数据集涵盖了多种恶意评论类型,如仇恨、威胁、滥用和无礼等。
数据用途概述:
该数据集适用于训练和评估恶意评论检测模型,支持社交平台的内容审核,帮助研究人员和开发者开发高效的文本分类算法,以及用于教育和培训场景。通过分析数据集,可以识别潜在的恶意评论并采取相应措施,改善在线社区环境。
数据集描述:
1. Id:唯一标识符,确保每个评论的唯一性。
2. Comments:评论内容,来自多个社交平台。
3. Malignant:恶意标签,1表示恶意,0表示非恶意。
4. Highly Malignant:高度恶意标签,1表示高度恶意,0表示非高度恶意。
5. Rude:无礼标签,1表示无礼,0表示非无礼。
6. Threat:威胁标签,1表示威胁,0表示非威胁。
7. Abuse:滥用标签,1表示滥用,0表示非滥用。
8. Loathe:仇恨标签,1表示仇恨,0表示非仇恨。
本数据集为机器学习和自然语言处理研究提供了宝贵资源,支持开发有效的恶意评论检测系统,促进健康和谐的在线交流环境。