数据集概述
本数据集是针对Hugging Face生态系统中恶意预训练模型(PTMs)的实证研究复现包,包含18,195个恶意模型数据、分析脚本、结果文件及访谈问卷,支持复现研究关键发现,助力AI模型供应链安全研究。
文件详解
- script/目录:
- dataset_collection.csv:通过Hugging Face API收集所有PTMs的脚本
- dataset_spider.csv:收集Hugging Face中PTMs的模型卡片、大小、张量类型及警告信息的脚本
- dataset_analyze.csv:用于分析RQ1至RQ5的脚本
- feature_extraction.py:从ProtectAI网站收集并识别恶意PTMs的脚本
- dataset/目录:
- all_models_api_list_0701.csv:2025年6月30日前Hugging Face所有PTMs
- all_models_0701_malicious.csv:含唯一模型名的恶意PTMs
- sample_dataset_rq3.csv:RQ3使用的样本数据集
- sample_models_final_rq4.xlsx:RQ4使用的样本数据集
- all_models_0701_malicious_noduplicate.csv:所有去重后的恶意PTMs
- interviews/目录:
- questionnair.pdf:访谈问卷
- results/目录:含category_year_trend.pdf等11个结果图表文件
- 根目录文件:
- environment.yaml:环境配置文件
- README.md:数据集说明文档
适用场景
- AI安全研究:分析Hugging Face生态中恶意预训练模型的特征与风险
- 模型供应链安全:研究恶意模型的传播路径与检测方法优化
- 实证研究复现:复现原论文关于恶意PTMs的关键发现
- 安全工具开发:基于恶意模型特征开发AI模型安全检测工具
- 学术分析:探索预训练模型平台的风险管理与治理策略