数据集

增强型电子邮件分类数据集-2023-valentynbovchaliuk

增强型电子邮件分类数据集-2023-valentynbovchaliuk 数据来源：互联网公开数据标签：电子邮件分类,数据增强,NLP,文本处理,机器学习,数据集,反垃圾邮件,自然语言处理,数据扩充

数据概述：本数据集是在原始的“垃圾邮件数据集”基础上通过多种自然语言处理（NLP）数据增强技术生成的。原始数据集包含了大量的电子邮件样本，并标记为垃圾邮件或非垃圾邮件。通过数据增强技术，从原始数据集中生成了更多的训练样本，以提高机器学习模型的泛化能力和准确性。

数据增强技术包括： 1. 扩展缩写：将电子邮件中的缩写展开为完整形式。 2. 句子打乱：随机打乱电子邮件中的句子顺序。 3. 方言或俚语：引入不同的语言变体或俚语。 4. 噪声注入：在文本中随机插入无关信息。 5. 同义词替换：用同义词替换文本中的部分单词。 6. 随机插入：在文本中随机插入额外的单词。 7. 随机删除：随机删除文本中的部分单词。 8. 随机交换：随机交换文本中两个相邻单词的位置。 9. 重写：使用facebook/bart-large-cnn模型进行文本重写。 10. 反向翻译：使用Helsinki-NLP/opus-mt-en-uk和Helsinki-NLP/opus-mt-uk-en模型进行英译乌和乌译英的反向翻译。 11. 语言模型生成：使用GPT2模型生成新的文本样本。

数据集适用于多种机器学习和自然语言处理任务，特别是电子邮件分类。

数据用途概述：该数据集适用于垃圾邮件分类模型的训练和评估，通过使用增强后的数据集可以提高模型的准确性和稳定性。研究人员和开发者可以利用此数据集进行模型训练、验证和测试，以开发更有效的垃圾邮件过滤系统。此外，该数据集也可以用于自然语言处理领域的教学和研究，帮助学习者理解和掌握数据增强技术在实际应用中的重要性。

数据与资源

versions_20250404113618.zipZIP
1.19 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.19 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

增强型电子邮件分类数据集-2023-valentynbovchaliuk

数据与资源

附加信息

注册成功！