网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用
数据来源:互联网公开数据
标签:网络安全,BERT,NLP,威胁检测,文本分类,恶意软件分析,漏洞,网络安全威胁,文本数据,机器学习
数据概述:
Cyber-BERT是一个精心构建的数据集,专为网络安全领域的自然语言处理(NLP)应用而设计。它包含了从各种网络安全来源提取的文本,涵盖了恶意软件分析、漏洞、网络威胁和网络安全等主题。该数据集非常适合用于训练基于BERT的模型,以执行威胁检测、文本分类和网络安全研究。
数据来源网站: TheHackerNews, CVE Details, Any.Run, OpenPhish
样本数量:约50,000(根据收集情况而变化)
文件格式:CSV
数据列:
text - 处理过的与网络安全相关的文本
数据用途概述:
该数据集适用于多种应用场景,包括:
网络威胁检测–训练模型以对安全威胁进行分类
命名实体识别(NER)–识别恶意软件、漏洞利用和漏洞
威胁情报分析–从网络安全报告中提取见解
BERT微调–构建用于安全领域的专业NLP模型
数据预处理:
该数据集经过预处理,以移除:
网址和非文本符号
HTML标签和元数据
重复和冗余内容