数据集

分类推文数据集

分类推文数据集数据来源：互联网公开数据
标签：社交媒体,情感分析,网络安全,仇恨言论,网络欺凌,自杀倾向,机器学习,文本分类

数据概述
本数据集由原始的“可疑推文”数据集经过进一步精细化处理而成，旨在更详细地对推文进行分类。数据集中包含了推文文本及其分类标签，推文内容被分为“可疑”或“非可疑”。对于标记为“可疑”的推文，进一步细分为以下子类别：
- 网络欺凌：包含种族主义（标记为1）和性别歧视（标记为2），以及其他情况标记为0；
- 仇恨言论：包含仇恨文本（标记为1），非仇恨文本标记为0；
- 自杀倾向：包含有自杀意图的文本（标记为1），无自杀意图标记为0。

数据集共有5个字段：
1. text：推文文本内容；
2. suspicious：是否可疑，1表示可疑，0表示非可疑；
3. cyberbullying：网络欺凌分类，1表示种族主义，2表示性别歧视，0表示无网络欺凌；
4. hate：是否包含仇恨言论，1表示有，0表示无；
5. suicidal：是否包含自杀意图，1表示有，0表示无。

数据用途概述
该数据集适用于多个领域的研究和应用，包括但不限于：
1. 社交媒体分析：帮助检测和识别社交媒体中的不良信息，如网络欺凌、仇恨言论和自杀倾向等；
2. 网络安全：为开发更精准的文本分类模型提供训练数据，提升对有害内容的识别能力；
3. 情感分析：用于研究推文中的情感倾向，评估其对社会和心理健康的影响；
4. 机器学习研究：为文本分类、自然语言处理和深度学习模型的训练提供高质量的标注数据；
5. 政策制定：为制定网络言论管理政策、保护用户安全提供数据支持。

此数据集通过多维度的分类标注，为研究者、开发者和政策制定者提供了丰富的分析基础，可广泛应用于学术研究、工业实践和公共治理场景。

数据与资源

分类推文数据集.zipZIP
0.75 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.75 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

分类推文数据集

数据与资源

附加信息

注册成功！