恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集

恩尼翁2006年电子邮件垃圾邮件与正常邮件分类数据集 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件分类,正常邮件,文本处理,数据预处理,机器学习,文本分析 数据概述: 本数据集包含2006年恩尼翁公司的电子邮件数据,用于垃圾邮件(spam)和正常邮件(ham)的分类。数据集分为6个预处理过的集合(Enron1至Enron6),每个集合包含两个文件:email_origin.csv 和 email_text.csv。email_origin.csv 包含原始预处理过的电子邮件及其标签,email_text.csv 包含进一步处理过的电子邮件正文及其标签。 数据用途概述: 该数据集适用于垃圾邮件分类、文本分析、机器学习算法训练及评估等场景。研究人员可以利用此数据集训练垃圾邮件检测模型,提高模型的准确性和鲁棒性;企业可以使用此数据优化电子邮件过滤系统,减少垃圾邮件的干扰;教育机构也可以利用此数据集进行文本处理和机器学习相关的教学和研究。 举例: 数据集中email_origin.csv文件中包含了一封原始预处理过的电子邮件,标签为1(表示垃圾邮件),内容为原始电子邮件文本。email_text.csv文件中则包含同一封电子邮件的进一步处理过的正文,标签同样为1(表示垃圾邮件)。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 30.26 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。