印度邮件垃圾邮件分类数据集2003-2005

印度邮件垃圾邮件分类数据集2003-2005 数据来源:互联网公开数据 标签:邮件分类,垃圾邮件,Ham,Spam,SpamAssassin,文本处理,电子邮件分析 数据概述: 本数据集来自SpamAssassin公开邮件语料库,包含2003年至2005年间收集的电子邮件数据。数据集分为多个文件夹,分别为20030228_easy_ham、20030228_easy_ham_2、20030228_hard_ham、20030228_spam以及20050311_spam_2,这些文件夹分别存储了不同类别和难易程度的邮件。数据集主要包含两个CSV文件:email_origin.csv和email_text.csv。其中,email_origin.csv记录了原始邮件及其标签信息,而email_text.csv则记录了经过处理的邮件正文及其标签信息。此外,数据集还包括两个文件夹ham和spam,分别存储了原始的垃圾邮件和非垃圾邮件文件。 数据用途概述: 该数据集适用于垃圾邮件分类模型的训练和评估,帮助研究人员开发更有效的垃圾邮件过滤算法。此外,数据集也可以用于电子邮件内容分析、用户行为研究以及网络安全研究等领域,通过对邮件内容的理解,可以进一步挖掘邮件传播规律和潜在的安全威胁。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 25.8 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。