JailFact_Bench_LLM越狱攻击与幻觉分析基准数据集_SiMLA2025Workshop

数据集概述

本数据集是用于分析大语言模型(LLMs)越狱攻击与幻觉模式的基准数据集,包含语义对齐的越狱及事实性提示词,以及毒性变化、相似度得分、标注策略等元数据,支持LLM安全与事实一致性的评估研究。

文件详解

  • 文件名称:README.md
  • 文件格式:Markdown
  • 字段映射介绍:包含数据集概述、开发背景、使用说明等文档内容
  • 文件名称:jailfact-bench.xlsx
  • 文件格式:Excel
  • 字段映射介绍:包含语义匹配的提示词数据(越狱类与事实类)、模型输出指标数据、专家标注数据及毒性变化、相似度得分等元数据字段

数据来源

NYU Abu Dhabi(Christina Pöpper教授团队)

适用场景

  • LLM安全评估: 用于测试大语言模型对越狱攻击的防御能力及输出的事实一致性
  • 幻觉模式研究: 分析LLM在不同提示词下的幻觉生成规律与影响因素
  • 提示词工程优化: 基于语义对齐的提示词数据,优化安全提示词设计方案
  • AI伦理风险分析: 结合毒性变化等元数据,评估LLM输出的伦理风险等级
  • 学术研究基准测试: 作为SiMLA 2025 Workshop论文配套数据集,支持LLM安全领域的可复现研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.02 MiB
最后更新 2026年1月5日
创建于 2026年1月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。