数据集

Hugging_Face恶意预训练模型研究复现包

数据集概述

本数据集是针对Hugging Face生态系统中恶意预训练模型（PTMs）的安全风险研究复现包，包含18195个恶意PTMs数据，涉及攻击手段、逃避策略、检测效果等分析内容，支持复现研究结果及AI模型供应链安全相关研究。

文件详解

该数据集由多个目录和文件组成，具体说明如下： - script/目录： - dataset_collection.csv：通过Hugging Face API收集所有PTMs的脚本 - dataset_spider.csv：收集Hugging Face中PTMs的模型卡片、模型大小、张量类型和警告信息的脚本 - dataset_analyze.csv：用于分析RQ1至RQ5数据集的脚本 - feature_extraction.py：从ProtectAI网站收集并识别恶意PTMs的脚本 - dataset/目录： - all_models_api_list_0701.csv：2025年6月30日前Hugging Face中的所有PTMs - all_models_0701_malicious.csv：具有唯一模型名称的恶意PTMs - sample_dataset_rq3.csv：RQ3中使用的样本数据集 - sample_models_final_rq4.xlsx：RQ4中使用的样本数据集 - all_models_0701_malicious_noduplicate.csv：所有恶意PTMs（无重复） - interviews/目录： - questionnair.pdf：调查问卷文档 - results/目录： - 包含category_year_trend.pdf、completeness_model_card.pdf等多个PDF格式的分析结果图表 - 涉及恶意模型趋势、下载分布、检测方法预测等研究结果可视化 - 根目录文件： - environment.yaml：环境配置文件 - README.md：项目说明文档

适用场景

AI模型供应链安全研究：分析恶意预训练模型的传播路径与风险特征
恶意模型检测技术开发：基于数据集训练和验证检测算法的有效性
模型平台安全机制优化：为Hugging Face等平台完善恶意模型识别与管控策略提供依据
安全风险评估：研究恶意模型的下载趋势、用户信任度与攻击影响范围
学术研究复现：支持复现论文中关于恶意PTMs的关键研究发现

数据与资源

16033507.zipZIP
76.78 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	76.78 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。