AI模型供应链恶意风险研究复现数据

数据集概述

本数据集是针对Hugging Face生态系统中恶意预训练模型(PTMs)的实证研究复现包,包含18,195个恶意模型数据、分析脚本、结果文件及访谈问卷,支持复现研究关键发现,助力AI模型供应链安全研究。

文件详解

  • script/目录:
  • dataset_collection.csv:通过Hugging Face API收集所有PTMs的脚本
  • dataset_spider.csv:收集Hugging Face中PTMs的模型卡片、大小、张量类型及警告信息的脚本
  • dataset_analyze.csv:用于分析RQ1至RQ5的脚本
  • feature_extraction.py:从ProtectAI网站收集并识别恶意PTMs的脚本
  • dataset/目录:
  • all_models_api_list_0701.csv:2025年6月30日前Hugging Face所有PTMs
  • all_models_0701_malicious.csv:含唯一模型名的恶意PTMs
  • sample_dataset_rq3.csv:RQ3使用的样本数据集
  • sample_models_final_rq4.xlsx:RQ4使用的样本数据集
  • all_models_0701_malicious_noduplicate.csv:所有去重后的恶意PTMs
  • interviews/目录:
  • questionnair.pdf:访谈问卷
  • results/目录:含category_year_trend.pdf等11个结果图表文件
  • 根目录文件:
  • environment.yaml:环境配置文件
  • README.md:数据集说明文档

适用场景

  • AI安全研究:分析Hugging Face生态中恶意预训练模型的特征与风险
  • 模型供应链安全:研究恶意模型的传播路径与检测方法优化
  • 实证研究复现:复现原论文关于恶意PTMs的关键发现
  • 安全工具开发:基于恶意模型特征开发AI模型安全检测工具
  • 学术分析:探索预训练模型平台的风险管理与治理策略
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 76.65 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。