分类推文数据集
数据来源:互联网公开数据
标签:社交媒体,情感分析,网络安全,仇恨言论,网络欺凌,自杀倾向,机器学习,文本分类
数据概述
本数据集由原始的“可疑推文”数据集经过进一步精细化处理而成,旨在更详细地对推文进行分类。数据集中包含了推文文本及其分类标签,推文内容被分为“可疑”或“非可疑”。对于标记为“可疑”的推文,进一步细分为以下子类别:
- 网络欺凌:包含种族主义(标记为1)和性别歧视(标记为2),以及其他情况标记为0;
- 仇恨言论:包含仇恨文本(标记为1),非仇恨文本标记为0;
- 自杀倾向:包含有自杀意图的文本(标记为1),无自杀意图标记为0。
数据集共有5个字段:
1. text:推文文本内容;
2. suspicious:是否可疑,1表示可疑,0表示非可疑;
3. cyberbullying:网络欺凌分类,1表示种族主义,2表示性别歧视,0表示无网络欺凌;
4. hate:是否包含仇恨言论,1表示有,0表示无;
5. suicidal:是否包含自杀意图,1表示有,0表示无。
数据用途概述
该数据集适用于多个领域的研究和应用,包括但不限于:
1. 社交媒体分析:帮助检测和识别社交媒体中的不良信息,如网络欺凌、仇恨言论和自杀倾向等;
2. 网络安全:为开发更精准的文本分类模型提供训练数据,提升对有害内容的识别能力;
3. 情感分析:用于研究推文中的情感倾向,评估其对社会和心理健康的影响;
4. 机器学习研究:为文本分类、自然语言处理和深度学习模型的训练提供高质量的标注数据;
5. 政策制定:为制定网络言论管理政策、保护用户安全提供数据支持。
此数据集通过多维度的分类标注,为研究者、开发者和政策制定者提供了丰富的分析基础,可广泛应用于学术研究、工业实践和公共治理场景。