钓鱼邮件与合法邮件数据集-人类与LLM生成邮件对比研究-2024-francescogreco97
数据来源:互联网公开数据
标签:钓鱼邮件,合法邮件,LLM生成,人类生成,文本分类,网络安全,机器学习,邮件分析
数据概述:
本数据集包含一个多类别邮件数据集,共计4000封邮件,涵盖了人类编写的邮件和由大型语言模型(LLM)生成的邮件,其中既有钓鱼邮件,也有合法的邮件。人类生成的邮件来源于Nazario数据集和尼日利亚诈骗数据集中的最新邮件(1000封合法邮件 + 1000封钓鱼邮件)。LLM生成的邮件则分别由ChatGPT和WormGPT生成(1000封合法邮件 + 1000封钓鱼邮件)。
数据集中包含一个名为“Label”的列,用于指示邮件的生成方式:0代表人类生成,1代表LLM生成。
数据用途概述:
该数据集主要用于研究和评估机器学习模型在检测LLM生成的文本(特别是钓鱼邮件)方面的能力。 适用于文本分类、网络安全研究、钓鱼邮件检测、以及LLM生成文本的识别等多个领域。 研究人员可以利用该数据集训练和测试机器学习模型,以区分人类编写的邮件和LLM生成的邮件,并进一步分析不同生成方式对邮件内容和特征的影响。 此外,该数据集还可以用于教育和培训,帮助人们更好地理解钓鱼邮件的特征,提高对网络钓鱼攻击的防范意识。
该数据集已被用于发表在2024年ITASEC网络安全会议上的论文《大卫与歌利亚:机器学习能否检测LLM生成的文本?钓鱼邮件检测案例研究》(David versus Goliath: Can Machine Learning Detect LLM-Generated Text? A Case Study in the Detection of Phishing Emails),作者包括F. Greco, G. Desolda, A. Esposito, A. Carelli。