网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用

网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用 数据来源:互联网公开数据 标签:网络安全,BERT,NLP,威胁检测,文本分类,恶意软件分析,漏洞,网络安全威胁,文本数据,机器学习 数据概述: Cyber-BERT是一个精心构建的数据集,专为网络安全领域的自然语言处理(NLP)应用而设计。它包含了从各种网络安全来源提取的文本,涵盖了恶意软件分析、漏洞、网络威胁和网络安全等主题。该数据集非常适合用于训练基于BERT的模型,以执行威胁检测、文本分类和网络安全研究。

数据来源网站: TheHackerNews, CVE Details, Any.Run, OpenPhish 样本数量:约50,000(根据收集情况而变化) 文件格式:CSV 数据列: text - 处理过的与网络安全相关的文本

数据用途概述: 该数据集适用于多种应用场景,包括: 网络威胁检测–训练模型以对安全威胁进行分类 命名实体识别(NER)–识别恶意软件、漏洞利用和漏洞 威胁情报分析–从网络安全报告中提取见解 BERT微调–构建用于安全领域的专业NLP模型

数据预处理: 该数据集经过预处理,以移除: 网址和非文本符号 HTML标签和元数据 重复和冗余内容

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.07 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。