数据集

巴西葡萄牙语暗网论坛标注帖子数据集_DarkPT_BR

数据集概述

该数据集为巴西葡萄牙语暗网论坛的标注帖子集合，包含三个版本：基于启发式标注的初始数据集、人工修订扩展数据集，以及模型预测标注的未标记帖子数据集，支持网络威胁情报和恶意内容检测研究。

文件详解

该数据集包含3个CSV格式文件，均位于"DarkPT-BR Labeled Posts from Brazilian Portuguese/"目录下： - dataset_I.csv：初始启发式标注数据集，含17,675条暗网帖子，标注字段包括ID、category（类别）、full_text（全文）、created_at（创建时间）、IOC（妥协指标）、IP（IP地址）、URL、EML（邮箱）、HSH（哈希）、CVE、DOM（域名）、ASN、IP6、MAC、RKP、KEYWORD（关键词）、Relevante（相关性标签） - dataset_II.csv：人工修订扩展数据集，含26,575条暗网帖子（包含dataset_I全部内容），标注字段与dataset_I一致，含3,341条相关帖子、23,234条不相关帖子 - dataset_III.csv：模型预测标注数据集，含7,498条未标记暗网帖子，标注字段包括ID、category、full_text、created_at、IOC、IP4、URL、EML、DOM、CVE、SHA1S、HSH、MD5S、SHA256S、IPV6S、KEYWORD、probabilidade（相关性概率）、Relevância（相关性）、previsao_binaria（二分类预测）

适用场景

网络威胁情报研究：分析暗网中恶意内容的分布与特征
恶意内容检测：训练和评估恶意帖子识别的机器学习模型
文本挖掘应用：探索暗网论坛文本的语义特征与主题分类
网络安全自动化：支持妥协指标（IoC）的自动提取与分析

数据与资源

33kff5gb3h-1.zipZIP
16.95 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	16.95 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。