Hugging_Face恶意预训练模型研究复现包

数据集概述

本数据集是针对Hugging Face生态系统中恶意预训练模型(PTMs)的安全风险研究复现包,包含18195个恶意PTMs数据,涉及攻击手段、逃避策略、检测效果等分析内容,支持复现研究结果及AI模型供应链安全相关研究。

文件详解

该数据集由多个目录和文件组成,具体说明如下: - script/目录: - dataset_collection.csv:通过Hugging Face API收集所有PTMs的脚本 - dataset_spider.csv:收集Hugging Face中PTMs的模型卡片、模型大小、张量类型和警告信息的脚本 - dataset_analyze.csv:用于分析RQ1至RQ5数据集的脚本 - feature_extraction.py:从ProtectAI网站收集并识别恶意PTMs的脚本 - dataset/目录: - all_models_api_list_0701.csv:2025年6月30日前Hugging Face中的所有PTMs - all_models_0701_malicious.csv:具有唯一模型名称的恶意PTMs - sample_dataset_rq3.csv:RQ3中使用的样本数据集 - sample_models_final_rq4.xlsx:RQ4中使用的样本数据集 - all_models_0701_malicious_noduplicate.csv:所有恶意PTMs(无重复) - interviews/目录: - questionnair.pdf:调查问卷文档 - results/目录: - 包含category_year_trend.pdf、completeness_model_card.pdf等多个PDF格式的分析结果图表 - 涉及恶意模型趋势、下载分布、检测方法预测等研究结果可视化 - 根目录文件: - environment.yaml:环境配置文件 - README.md:项目说明文档

适用场景

  • AI模型供应链安全研究:分析恶意预训练模型的传播路径与风险特征
  • 恶意模型检测技术开发:基于数据集训练和验证检测算法的有效性
  • 模型平台安全机制优化:为Hugging Face等平台完善恶意模型识别与管控策略提供依据
  • 安全风险评估:研究恶意模型的下载趋势、用户信任度与攻击影响范围
  • 学术研究复现:支持复现论文中关于恶意PTMs的关键研究发现
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 76.78 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。