数据集

网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用

网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用数据来源：互联网公开数据标签：网络安全,BERT,NLP,威胁检测,文本分类,恶意软件分析,漏洞,网络安全威胁,文本数据,机器学习数据概述： Cyber-BERT是一个精心构建的数据集，专为网络安全领域的自然语言处理（NLP）应用而设计。它包含了从各种网络安全来源提取的文本，涵盖了恶意软件分析、漏洞、网络威胁和网络安全等主题。该数据集非常适合用于训练基于BERT的模型，以执行威胁检测、文本分类和网络安全研究。

数据来源网站： TheHackerNews, CVE Details, Any.Run, OpenPhish 样本数量：约50,000（根据收集情况而变化）文件格式：CSV 数据列： text - 处理过的与网络安全相关的文本

数据用途概述：该数据集适用于多种应用场景，包括：网络威胁检测–训练模型以对安全威胁进行分类命名实体识别（NER）–识别恶意软件、漏洞利用和漏洞威胁情报分析–从网络安全报告中提取见解 BERT微调–构建用于安全领域的专业NLP模型

数据预处理：该数据集经过预处理，以移除：网址和非文本符号 HTML标签和元数据重复和冗余内容

数据与资源

网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用.zipZIP
0.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.07 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

网络安全BERT模型训练数据集-网络安全文本数据-多源文本-通用

数据与资源

附加信息

注册成功！