垃圾邮件过滤研究-SpamAssassin邮件数据集

垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述: 本数据集由贝叶斯垃圾邮件过滤器SpamAssassin的开发者提供,包含了6046封邮件,其中1897封被标记为垃圾邮件。所有邮件均包含完整的邮件头信息,但为了保护隐私,贡献者对部分邮件地址和主机名进行了替换。数据被整理成一个CSV文件,其中包含每个邮件的原始文件名。为了便于自然语言处理研究,数据集将邮件的“主题”和“正文”合并为一列。 数据用途概述: 该数据集主要用于垃圾邮件过滤器的训练和评估,以及自然语言处理(NLP)相关研究。研究人员可以使用该数据集进行垃圾邮件检测算法的开发和测试,例如贝叶斯分类器、支持向量机等。此外,该数据集也适用于文本分类、情感分析等NLP任务,以及用于机器学习模型的训练和评估。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.09 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。