LeetSpeak_Based_垃圾邮件混淆数据集

数据集概述

本数据集通过LeetSpeak转换对公开垃圾邮件数据集进行部分混淆处理,用于评估反混淆技术及其对垃圾邮件分类的影响。包含YouTube垃圾邮件集合、YouTube评论子集、CSDMC2010、TREC2007四个来源的混淆文本数据,以压缩包形式提供。

文件详解

  • 文件名称:corpora.zip
  • 文件格式:ZIP(压缩包)
  • 内容说明:压缩包内包含经LeetSpeak混淆处理的垃圾邮件文本数据,原始来源为YouTube Spam Collection、YouTube Comments子集、CSDMC2010、TREC2007四个公开数据集。

数据来源

YouTube Spam Collection、YouTube Comments子集、CSDMC2010、TREC2007公开数据集

适用场景

  • 反混淆技术评估: 用于测试不同方法对LeetSpeak混淆文本的还原效果。
  • 垃圾邮件分类模型优化: 分析混淆文本对分类模型准确率、召回率的影响,优化模型鲁棒性。
  • 文本混淆机制研究: 探究LeetSpeak等混淆手段在垃圾邮件中的应用模式。
  • 网络内容安全检测: 为垃圾邮件过滤系统提供混淆样本训练数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 40.49 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。