垃圾邮件与正常邮件分类数据集-平衡数据集

垃圾邮件与正常邮件分类数据集-平衡数据集 数据来源:互联网公开数据 标签:垃圾邮件,正常邮件,文本分类,电子邮件,自然语言处理,机器学习,数据集 数据概述: 本数据集包含9990封电子邮件,用于垃圾邮件与正常邮件的分类任务。数据集共两列,第一列为标签列(label),取值为0或1,其中0代表正常邮件(ham),1代表垃圾邮件(spam)。第二列为邮件正文(text)。该数据集为平衡数据集,其中约47%的邮件为垃圾邮件,53%的邮件为正常邮件。 数据用途概述: 该数据集主要用于自然语言处理(NLP)和机器学习领域的文本分类研究和实践,特别适用于垃圾邮件过滤模型的训练与评估。研究人员可以利用该数据集开发、训练和评估各种文本分类算法,例如朴素贝叶斯、支持向量机、深度学习模型等,用于构建垃圾邮件检测系统。此外,该数据集也适用于教学目的,帮助学生理解文本分类的基本原理和实践方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 36.17 MiB
最后更新 2025年4月25日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。