数据集

钓鱼邮件与合法邮件数据集-人类与LLM生成邮件对比研究-2024-francescogreco97

数据来源：互联网公开数据

标签：钓鱼邮件,合法邮件,LLM生成,人类生成,文本分类,网络安全,机器学习,邮件分析

数据概述：本数据集包含一个多类别邮件数据集，共计4000封邮件，涵盖了人类编写的邮件和由大型语言模型（LLM）生成的邮件，其中既有钓鱼邮件，也有合法的邮件。人类生成的邮件来源于Nazario数据集和尼日利亚诈骗数据集中的最新邮件（1000封合法邮件 + 1000封钓鱼邮件）。LLM生成的邮件则分别由ChatGPT和WormGPT生成（1000封合法邮件 + 1000封钓鱼邮件）。

数据集中包含一个名为“Label”的列，用于指示邮件的生成方式：0代表人类生成，1代表LLM生成。

数据用途概述：该数据集主要用于研究和评估机器学习模型在检测LLM生成的文本（特别是钓鱼邮件）方面的能力。适用于文本分类、网络安全研究、钓鱼邮件检测、以及LLM生成文本的识别等多个领域。研究人员可以利用该数据集训练和测试机器学习模型，以区分人类编写的邮件和LLM生成的邮件，并进一步分析不同生成方式对邮件内容和特征的影响。此外，该数据集还可以用于教育和培训，帮助人们更好地理解钓鱼邮件的特征，提高对网络钓鱼攻击的防范意识。

该数据集已被用于发表在2024年ITASEC网络安全会议上的论文《大卫与歌利亚：机器学习能否检测LLM生成的文本？钓鱼邮件检测案例研究》(David versus Goliath: Can Machine Learning Detect LLM-Generated Text? A Case Study in the Detection of Phishing Emails)，作者包括F. Greco, G. Desolda, A. Esposito, A. Carelli。

数据与资源

versions_20250413081113.zipZIP
1.14 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.14 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。