垃圾邮件与正常邮件分类数据集TREC2007-bayes2003

垃圾邮件与正常邮件分类数据集TREC2007-bayes2003

数据来源:互联网公开数据

标签:垃圾邮件, 正常邮件, 文本分类, 自然语言处理, 机器学习, 邮件, TREC

数据概述: 本数据集包含用于垃圾邮件(Spam)和正常邮件(Ham)分类的电子邮件。数据来源于“2007年TREC公开垃圾邮件语料库”。数据集包含两份CSV文件以及一个压缩文件。

文件说明:

email_origin.csv:原始邮件数据,包含原始邮件内容和标签。 字段: label: 整型,1表示垃圾邮件,0表示正常邮件。 origin: 字符串,原始邮件内容。

email_text.csv:处理后的邮件正文数据,包含处理后的邮件正文和标签。 字段: label: 整型,1表示垃圾邮件,0表示正常邮件。 text: 字符串,处理后的邮件正文。

trec07p.tgz:从数据源下载的原始压缩文件。

数据处理流程: 从 email_origin.csv 文件生成 email_text.csv 文件,其中对原始邮件进行了处理,提取了邮件正文。

数据用途概述: 该数据集主要用于垃圾邮件和正常邮件的文本分类任务,可应用于机器学习模型的训练和评估,例如朴素贝叶斯、支持向量机、深度学习等模型。也可用于自然语言处理领域的文本分析、特征工程研究,以及垃圾邮件过滤器的开发和优化。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 481.94 MiB
最后更新 2025年5月30日
创建于 2025年5月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。