数据集

垃圾邮件与正常邮件分类数据集-平衡数据集

垃圾邮件与正常邮件分类数据集-平衡数据集数据来源：互联网公开数据标签：垃圾邮件,正常邮件,文本分类,电子邮件,自然语言处理,机器学习,数据集数据概述：本数据集包含9990封电子邮件，用于垃圾邮件与正常邮件的分类任务。数据集共两列，第一列为标签列（label），取值为0或1，其中0代表正常邮件（ham），1代表垃圾邮件（spam）。第二列为邮件正文（text）。该数据集为平衡数据集，其中约47%的邮件为垃圾邮件，53%的邮件为正常邮件。数据用途概述：该数据集主要用于自然语言处理（NLP）和机器学习领域的文本分类研究和实践，特别适用于垃圾邮件过滤模型的训练与评估。研究人员可以利用该数据集开发、训练和评估各种文本分类算法，例如朴素贝叶斯、支持向量机、深度学习模型等，用于构建垃圾邮件检测系统。此外，该数据集也适用于教学目的，帮助学生理解文本分类的基本原理和实践方法。

附加信息

字段	值
版本	1.0
数据集大小	36.17 MiB
最后更新	2025年4月25日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。