数据集概述
该数据集为巴西葡萄牙语暗网论坛的标注帖子集合,包含三个版本:基于启发式标注的初始数据集、人工修订扩展数据集,以及模型预测标注的未标记帖子数据集,支持网络威胁情报和恶意内容检测研究。
文件详解
该数据集包含3个CSV格式文件,均位于"DarkPT-BR Labeled Posts from Brazilian Portuguese/"目录下:
- dataset_I.csv:初始启发式标注数据集,含17,675条暗网帖子,标注字段包括ID、category(类别)、full_text(全文)、created_at(创建时间)、IOC(妥协指标)、IP(IP地址)、URL、EML(邮箱)、HSH(哈希)、CVE、DOM(域名)、ASN、IP6、MAC、RKP、KEYWORD(关键词)、Relevante(相关性标签)
- dataset_II.csv:人工修订扩展数据集,含26,575条暗网帖子(包含dataset_I全部内容),标注字段与dataset_I一致,含3,341条相关帖子、23,234条不相关帖子
- dataset_III.csv:模型预测标注数据集,含7,498条未标记暗网帖子,标注字段包括ID、category、full_text、created_at、IOC、IP4、URL、EML、DOM、CVE、SHA1S、HSH、MD5S、SHA256S、IPV6S、KEYWORD、probabilidade(相关性概率)、Relevância(相关性)、previsao_binaria(二分类预测)
适用场景
- 网络威胁情报研究:分析暗网中恶意内容的分布与特征
- 恶意内容检测:训练和评估恶意帖子识别的机器学习模型
- 文本挖掘应用:探索暗网论坛文本的语义特征与主题分类
- 网络安全自动化:支持妥协指标(IoC)的自动提取与分析