电子邮件垃圾邮件分类数据集-2021-nubrin

电子邮件垃圾邮件分类数据集-2021-nubrin 数据来源:互联网公开数据 标签:电子邮件,垃圾邮件,分类,数据集,文本分析,机器学习,特征提取

数据概述: 本数据集包含5172封随机挑选的电子邮件及其对应的垃圾邮件/非垃圾邮件标签。数据集以CSV文件格式存储,共有5172行,每行代表一封电子邮件。文件共有3002列,其中第一列是电子邮件名称,已用数字标识以保护隐私。最后一列是预测标签,1表示垃圾邮件,0表示非垃圾邮件。其余的3000列是根据所有邮件中出现频率最高的3000个单词生成的特征列,每个单词列在对应邮件行中的值表示该邮件中该单词出现的次数。因此,所有5172封邮件的信息都被紧凑地存储在一个数据框中,而非单独的文本文件。

数据用途概述: 该数据集适用于电子邮件垃圾邮件分类模型的训练和评估,适用于自然语言处理、文本分析和机器学习领域的研究。研究人员可以利用此数据集开发和优化垃圾邮件过滤算法;企业可以将其用于构建高效的垃圾邮件检测系统;教育机构也可以利用此数据集进行数据分析和机器学习的教学与实践。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.54 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。