软件相似度数据集

数据集概述

该数据集包含软件相似度学习的后处理数据,涉及软件功能的嵌入表示、软件信息提取结果及软件对的相似度评分数据,支持软件相似度相关研究与分析。

文件详解

  • 数据压缩包:
  • data.zip:ZIP格式压缩包,可能包含软件功能嵌入与信息提取的原始或处理后数据,如嵌入的软件图表示、函数名称及对应调用函数和函数令牌的信息。
  • 相似度评分文件:
  • large.csv:CSV格式文件,包含软件对的相似度评分数据,字段包括graph_1(软件1标识)、graph_2(软件2标识)、miniLM(miniLM模型相似度得分)、sbert(SBERT模型相似度得分)、tsdae(TSDAE模型相似度得分)等。

数据来源

SoftwareSim_Github

适用场景

  • 软件相似度算法研究:用于测试和比较不同模型(如miniLM、SBERT)在软件相似度计算中的性能。
  • 代码复用检测:分析软件间的相似性,识别潜在的代码复用或抄袭情况。
  • 软件功能聚类:基于相似度数据对软件功能进行聚类,探索功能相似性分布。
  • 软件安全分析:通过相似度分析发现恶意软件与已知样本的关联,辅助恶意代码检测。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 383.38 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。