BERT嵌入垃圾邮件数据集

BERT嵌入垃圾邮件数据集 数据来源:互联网公开数据
标签:垃圾邮件,短信分类,BERT嵌入,机器学习,文本分析,自然语言处理,ROC-AUC指标

数据概述
本数据集是基于原始短信数据集扩展而成,主要用于研究垃圾邮件(spam)与正常短信(ham)的分类问题。数据集包含每条短信的BERT嵌入特征,解决了在内存受限环境中直接生成BERT嵌入的问题。原始数据集中的每条短信已被转换为DistilBERT的分类嵌入,同时保留了原始短信内容及其标签信息。数据集中共有5574条记录,每条记录包含770个特征列,其中768列是DistilBERT生成的分类嵌入,其余列包含短信标签和原始内容。

数据用途概述
该数据集适用于以下场景:
1. 垃圾邮件分类模型训练:利用BERT嵌入特征,构建垃圾邮件分类模型,评估模型在识别垃圾短信方面的性能。
2. 特征对比研究:比较BERT嵌入与传统特征(如TF-IDF)在垃圾邮件分类任务中的表现,分析BERT嵌入的优势和局限性。
3. 模型性能评估:通过ROC-AUC指标评估分类模型的性能,探索模型优化的可能性。
4. 文本分析与特征提取:从数据集中提取有价值的特征,如垃圾邮件与正常短信中的常见词汇、短语等,为研究提供依据。
5. 机器学习算法研究:利用数据集测试不同机器学习算法在垃圾邮件分类任务中的表现,如随机森林、支持向量机等。

数据字段说明
1. spam:目标列,标记每条短信是否为垃圾短信(spam)或正常短信(ham)。
2. original_message:短信的原始内容,未经任何处理。
3. 0至768:DistilBERT生成的分类嵌入特征,每条短信被转换为768维的向量表示,用于后续的分类任务。

数据特征
- 数据规模:5574条记录,770个特征列。
- 标签分布:数据集中包含垃圾短信(spam)和正常短信(ham)两类标签,分布比例可能与原始数据集保持一致。
- 嵌入特征:每条短信的DistilBERT嵌入由768维向量表示,经过预处理(去除标点符号和英语停用词,并截取前30个tokens)后生成,以确保内存效率和较好的分类性能。

数据价值
1. 提升模型性能:利用BERT嵌入可以显著提高垃圾邮件分类模型的准确性和鲁棒性,特别是对于复杂或隐晦的垃圾短信。
2. 研究对比基准:为研究者提供一个基准数据集,用于对比不同文本特征提取方法(如BERT嵌入与TF-IDF)的优劣。
3. 应用场景广泛:适用于学术研究、工业应用和教育场景,如垃圾信息过滤、反垃圾邮件系统开发等。

注意事项
1. 数据预处理:原始短信在生成嵌入前已进行预处理,包括去除标点符号和停用词,并截取前30个tokens,可能存在一定的信息损失,但对模型性能影响不大。
2. 嵌入生成:DistilBERT嵌入是基于HuggingFace的transformers库生成的,遵循了Jay Allamar的教程方法,确保生成过程的可重复性。
3. 原始数据集引用:原始短信数据集来源于UCI Machine Learning Repository,使用时需参考并引用原始数据集的作者工作。

相关引用
- Almeida, T.A., Gómez Hidalgo, J.M., Yamakami, A. Contributions to the Study of SMS Spam Filtering: New Collection and Results. Proceedings of the 2011 ACM Symposium on Document Engineering (DOCENG'11), Mountain View, CA, USA, 2011.

其他资源
- GitHub代码库:建议参考用于创建数据集的GitHub代码库,以更深入理解DistilBERT嵌入的生成过程。
- 原始数据集:如需更多细节,请参考原始短信数据集,该数据集可从UCI Machine Learning Repository获取。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 20.09 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。