纯净软件静态特征分析数据集2024

纯净软件静态特征分析数据集2024 数据来源:互联网公开数据 标签:纯净软件,静态特征,机器学习,软件分析,打包检测,安全研究 数据概述: 本数据集收录了来自两个不同来源的15058个纯净软件样本,包括983个便携式免费软件样本和14373个Chocolatey包管理器样本。我们使用pefeats工具计算了每款软件的119个静态特征。原始未处理的数据文件包括pe_feats_choco.csv、pe_feats_freeware.csv、file_sha256_mapping_choco.csv和file_sha256_mapping_freeware.csv。经过预处理的V1版本数据集为cleanware_pefeats.parquet,其中包含元数据列['name', 'source', 'sha256']。 数据用途概述: 该数据集适用于机器学习方法的打包检测分析、软件安全研究以及静态特征分析等场景。研究人员可以通过此数据集评估不同机器学习方法在打包检测中的有效性;安全机构可以利用数据识别潜在的安全威胁;软件开发者可以了解软件的静态特征规律,提高软件安全性。此外,数据集也适合用于教育培训,帮助学习者掌握软件静态特征分析的方法和技巧。 举例: 数据集中包含的纯净软件样本涵盖了多个来源和种类,每个样本都具有详细的静态特征数据。例如,一个名为"example_software.exe"的纯净软件样本,其来源为Chocolatey包管理器,SHA256哈希值为"abcdef1234567890",并且包含119个静态特征信息,如文件大小、导入函数数量等。这些特征数据为软件安全分析提供了有力的支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.77 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。