垃圾邮件与正常邮件分类数据集TREC2007-bayes2003
数据来源:互联网公开数据
标签:垃圾邮件, 正常邮件, 文本分类, 自然语言处理, 机器学习, 邮件, TREC
数据概述:
本数据集包含用于垃圾邮件(Spam)和正常邮件(Ham)分类的电子邮件。数据来源于“2007年TREC公开垃圾邮件语料库”。数据集包含两份CSV文件以及一个压缩文件。
文件说明:
email_origin.csv:原始邮件数据,包含原始邮件内容和标签。
字段:
label: 整型,1表示垃圾邮件,0表示正常邮件。
origin: 字符串,原始邮件内容。
email_text.csv:处理后的邮件正文数据,包含处理后的邮件正文和标签。
字段:
label: 整型,1表示垃圾邮件,0表示正常邮件。
text: 字符串,处理后的邮件正文。
trec07p.tgz:从数据源下载的原始压缩文件。
数据处理流程:
从 email_origin.csv 文件生成 email_text.csv 文件,其中对原始邮件进行了处理,提取了邮件正文。
数据用途概述:
该数据集主要用于垃圾邮件和正常邮件的文本分类任务,可应用于机器学习模型的训练和评估,例如朴素贝叶斯、支持向量机、深度学习等模型。也可用于自然语言处理领域的文本分析、特征工程研究,以及垃圾邮件过滤器的开发和优化。