SEConvo_Based_社交工程对话模拟数据集_2024

数据集概述

本数据集包含1400条基于聊天的社交工程对话,模拟LinkedIn场景中的真实沟通,覆盖学术合作、学术资助、新闻采访、招聘等场景。所有对话由GPT-4-Turbo生成,包含单LLM模拟和双智能体交互两种模式,其中400条对话经过人工标注,可用于社交工程攻击防御相关的研究与分析。

文件详解

  • README.md
  • 文件格式:MD
  • 内容介绍:数据集说明文档,包含SEConvo的核心内容概述、场景类型与模式的统计信息等。
  • unannotated_test.json
  • 文件格式:JSON
  • 内容介绍:未标注的测试集社交工程对话数据。
  • annotated_test.json
  • 文件格式:JSON
  • 内容介绍:人工标注的测试集社交工程对话数据。
  • annotated_train.json
  • 文件格式:JSON
  • 内容介绍:人工标注的训练集社交工程对话数据。
  • unannotated_train.json
  • 文件格式:JSON
  • 内容介绍:未标注的训练集社交工程对话数据。

数据来源

论文“Defending Against Social Engineering Attacks in the Age of LLMs”

适用场景

  • 社交工程攻击检测模型训练: 利用标注对话数据训练识别社交工程行为的自然语言处理模型。
  • 社交平台安全防御研究: 分析LinkedIn场景下社交工程攻击的沟通模式与特征,优化平台安全策略。
  • 对话生成模型评估: 评估LLM生成真实社交工程对话的能力,优化对话模拟效果。
  • 网络安全教育: 提供真实场景的社交工程对话案例,用于网络安全培训与防御意识提升。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.82 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。