跨数据库重复漏洞记录数据集

数据集概述

该数据集包含来自跨数据库和GitHub Advisory Database的重复漏洞信息,以JSON格式存储,旨在支持漏洞匹配、重复检测相关研究。包含22,145条跨数据库重复漏洞对和133条GitHub专属重复漏洞对,共两个核心文件。

文件详解

该数据集包含一个压缩文件,内部包含两个JSON格式数据文件,具体说明如下: - 压缩文件: dataset.zip(格式:ZIP),为数据集的压缩包,解压后可获取以下两个JSON文件。 - 解压后文件: - cross_database_duplicates.json(格式:JSON):包含22,145条跨数据库重复漏洞对记录。每条记录包含四个属性: - id_1: 第一个漏洞报告的ID - id_2: 第二个漏洞报告的ID - record_1: 第一个漏洞报告的详细内容 - record_2: 第二个漏洞报告的详细内容 - github_advisory_database_duplicates.json(格式:JSON):包含133条GitHub Advisory Database专属的重复漏洞对记录,属性与上述文件一致。

适用场景

  • 漏洞匹配研究:用于分析不同数据库中漏洞报告的重复模式与匹配规则
  • 自然语言处理应用:可作为NLP模型训练数据,提升漏洞文本的相似度计算能力
  • 重复漏洞检测工具开发:为跨数据库重复漏洞检测系统提供实证数据支持
  • 网络安全数据分析:辅助构建更全面的漏洞数据库整合方案
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.99 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。