大型语言模型安全提示词数据集LargeLanguageModelSecurityPromptDataset-sandeepnambiar02
数据来源:互联网公开数据
标签:提示词, 对抗样本, 模型安全, 恶意指令, 文本生成, 风险评估, 自然语言处理, 数据清洗
数据概述:
该数据集包含来自公开的安全研究和社区的数据,记录了用于测试和评估大型语言模型(LLM)安全性的提示词。主要特征如下:
时间跨度:数据未标明具体时间,可视为静态提示词语料库。
地理范围:数据未限定地理范围,适用于全球范围内的LLM安全评估。
数据维度:数据集包含“prompt”字段,即输入的提示词文本,以及“prompt-type”字段,用于标识提示词的类型,例如“benign”(良性)或“jailbreak”(越狱)。
数据格式:CSV格式,文件名为default_jailbreak_dataset_fullcsv,便于文本分析和模型评估。
数据来源:数据来源于Sandeep Nambiar,并已进行数据结构化处理,便于安全研究。
该数据集适合用于LLM的安全性研究、对抗样本生成、恶意指令检测等领域。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于LLM安全、对抗攻击、文本生成等领域的学术研究,例如评估模型对恶意提示词的抵抗能力。
行业应用:为人工智能安全公司、LLM开发商提供数据支持,用于提升模型安全性、构建安全防护系统。
决策支持:支持LLM风险评估、安全策略制定,帮助企业和机构构建更安全的AI应用。
教育和培训:作为人工智能安全、自然语言处理等课程的实训数据集,帮助学生和研究人员理解LLM的安全风险。
此数据集特别适合用于探索LLM对恶意指令的脆弱性,评估模型在对抗攻击下的表现,并促进更安全的AI系统开发。