数据集

BERT嵌入垃圾邮件数据集

BERT嵌入垃圾邮件数据集数据来源：互联网公开数据
标签：垃圾邮件,短信分类,BERT嵌入,机器学习,文本分析,自然语言处理,ROC-AUC指标

数据概述
本数据集是基于原始短信数据集扩展而成，主要用于研究垃圾邮件（spam）与正常短信（ham）的分类问题。数据集包含每条短信的BERT嵌入特征，解决了在内存受限环境中直接生成BERT嵌入的问题。原始数据集中的每条短信已被转换为DistilBERT的分类嵌入，同时保留了原始短信内容及其标签信息。数据集中共有5574条记录，每条记录包含770个特征列，其中768列是DistilBERT生成的分类嵌入，其余列包含短信标签和原始内容。

数据用途概述
该数据集适用于以下场景：
1. 垃圾邮件分类模型训练：利用BERT嵌入特征，构建垃圾邮件分类模型，评估模型在识别垃圾短信方面的性能。
2. 特征对比研究：比较BERT嵌入与传统特征（如TF-IDF）在垃圾邮件分类任务中的表现，分析BERT嵌入的优势和局限性。
3. 模型性能评估：通过ROC-AUC指标评估分类模型的性能，探索模型优化的可能性。
4. 文本分析与特征提取：从数据集中提取有价值的特征，如垃圾邮件与正常短信中的常见词汇、短语等，为研究提供依据。
5. 机器学习算法研究：利用数据集测试不同机器学习算法在垃圾邮件分类任务中的表现，如随机森林、支持向量机等。

数据字段说明
1. spam：目标列，标记每条短信是否为垃圾短信（spam）或正常短信（ham）。
2. original_message：短信的原始内容，未经任何处理。
3. 0至768：DistilBERT生成的分类嵌入特征，每条短信被转换为768维的向量表示，用于后续的分类任务。

数据特征
- 数据规模：5574条记录，770个特征列。
- 标签分布：数据集中包含垃圾短信（spam）和正常短信（ham）两类标签，分布比例可能与原始数据集保持一致。
- 嵌入特征：每条短信的DistilBERT嵌入由768维向量表示，经过预处理（去除标点符号和英语停用词，并截取前30个tokens）后生成，以确保内存效率和较好的分类性能。

数据价值
1. 提升模型性能：利用BERT嵌入可以显著提高垃圾邮件分类模型的准确性和鲁棒性，特别是对于复杂或隐晦的垃圾短信。
2. 研究对比基准：为研究者提供一个基准数据集，用于对比不同文本特征提取方法（如BERT嵌入与TF-IDF）的优劣。
3. 应用场景广泛：适用于学术研究、工业应用和教育场景，如垃圾信息过滤、反垃圾邮件系统开发等。

注意事项
1. 数据预处理：原始短信在生成嵌入前已进行预处理，包括去除标点符号和停用词，并截取前30个tokens，可能存在一定的信息损失，但对模型性能影响不大。
2. 嵌入生成：DistilBERT嵌入是基于HuggingFace的transformers库生成的，遵循了Jay Allamar的教程方法，确保生成过程的可重复性。
3. 原始数据集引用：原始短信数据集来源于UCI Machine Learning Repository，使用时需参考并引用原始数据集的作者工作。

相关引用
- Almeida, T.A., Gómez Hidalgo, J.M., Yamakami, A. Contributions to the Study of SMS Spam Filtering: New Collection and Results. Proceedings of the 2011 ACM Symposium on Document Engineering (DOCENG'11), Mountain View, CA, USA, 2011.

其他资源
- GitHub代码库：建议参考用于创建数据集的GitHub代码库，以更深入理解DistilBERT嵌入的生成过程。
- 原始数据集：如需更多细节，请参考原始短信数据集，该数据集可从UCI Machine Learning Repository获取。

数据与资源

BERT嵌入垃圾邮件数据集.zipZIP
20.09 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	20.09 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

BERT嵌入垃圾邮件数据集

数据与资源

附加信息

注册成功！