数据集

LLM安全对抗测试数据集LLMSecurityAdversarialTestingDataset-bradhammond

数据来源：互联网公开数据

标签：LLM安全, 对抗样本, 文本生成, 提示词工程, 模型评估, 风险检测, 自然语言处理, 安全研究

数据概述：该数据集包含针对大型语言模型（LLM）的安全对抗测试数据，旨在评估模型在面对恶意或误导性提示时的表现。主要特征如下：时间跨度：数据未明确标注时间，可视为用于静态安全评估的语料库。地理范围：数据不限定特定地理区域，适用于全球范围内的LLM安全测试。数据维度：包括id_v1、id_v2、type、prompt、focus和note等字段，其中： id_v1和id_v2：为测试样本的唯一标识符； type：描述提示词的类型，如同音词（homonyms）； prompt：测试提示词； focus：提示词的核心关键词； note：对提示词意图的补充说明，例如“violence”（暴力）。数据格式：CSV格式，文件名为xstest_v2_promptscsv，便于分析和处理。另外还包含JSON格式的辅助文件，可能用于数据组织和模型训练。来源信息：数据来源于LLM安全研究项目，旨在探索LLM的安全漏洞和潜在风险。该数据集适合用于LLM的安全性评估、对抗样本生成、以及风险检测和缓解策略的研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于LLM安全、对抗攻击、提示词工程等领域的学术研究，如恶意提示词检测、模型鲁棒性分析等。行业应用：为人工智能安全公司、LLM开发商提供数据支持，用于评估和改进LLM的安全性，构建更安全的AI系统。决策支持：支持构建LLM安全风险评估体系，帮助开发者识别和缓解模型潜在的恶意行为。教育和培训：作为人工智能安全课程的案例分析材料，帮助学生和研究人员理解LLM的安全挑战。此数据集特别适合用于研究LLM在不同类型恶意提示词下的表现，探索提升模型安全性的方法，例如通过对抗训练、提示词过滤等手段。

数据与资源

versions_20250401034719.zipZIP
1.25 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.25 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。