预处理TREC2007公共语料库数据集

预处理TREC2007公共语料库数据集 数据来源:互联网公开数据
标签:垃圾邮件检测,TREC,邮件分类,机器学习,文本分析,数据预处理,spam detection

数据概述:
本数据集是基于TREC 2007公共语料库的预处理版本,适用于垃圾邮件检测模型的构建。原始数据集包含50199封垃圾邮件和25220封正常邮件(非垃圾邮件),经过预处理后,数据以CSV格式存储,便于直接使用。数据集包含以下字段:
- label:邮件标签,1表示垃圾邮件,0表示正常邮件
- subject:邮件主题
- email_to:收件人信息
- email_from:发件人信息
- message:邮件正文

数据用途概述:
该数据集适用于垃圾邮件检测相关的机器学习研究与模型训练。研究者可以利用此数据集进行邮件分类模型的开发、特征提取与分析、算法性能比较等。此外,数据集还可用于文本分析、自然语言处理技术的验证,以及垃圾邮件检测系统的优化与改进。数据集的标准化与预处理特性使其特别适合快速启动相关研究项目。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 175.63 MiB
最后更新 2025年4月18日
创建于 2025年4月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。