增强型电子邮件分类数据集-2023-valentynbovchaliuk

增强型电子邮件分类数据集-2023-valentynbovchaliuk 数据来源:互联网公开数据 标签:电子邮件分类,数据增强,NLP,文本处理,机器学习,数据集,反垃圾邮件,自然语言处理,数据扩充

数据概述: 本数据集是在原始的“垃圾邮件数据集”基础上通过多种自然语言处理(NLP)数据增强技术生成的。原始数据集包含了大量的电子邮件样本,并标记为垃圾邮件或非垃圾邮件。通过数据增强技术,从原始数据集中生成了更多的训练样本,以提高机器学习模型的泛化能力和准确性。

数据增强技术包括: 1. 扩展缩写:将电子邮件中的缩写展开为完整形式。 2. 句子打乱:随机打乱电子邮件中的句子顺序。 3. 方言或俚语:引入不同的语言变体或俚语。 4. 噪声注入:在文本中随机插入无关信息。 5. 同义词替换:用同义词替换文本中的部分单词。 6. 随机插入:在文本中随机插入额外的单词。 7. 随机删除:随机删除文本中的部分单词。 8. 随机交换:随机交换文本中两个相邻单词的位置。 9. 重写:使用facebook/bart-large-cnn模型进行文本重写。 10. 反向翻译:使用Helsinki-NLP/opus-mt-en-uk和Helsinki-NLP/opus-mt-uk-en模型进行英译乌和乌译英的反向翻译。 11. 语言模型生成:使用GPT2模型生成新的文本样本。

数据集适用于多种机器学习和自然语言处理任务,特别是电子邮件分类。

数据用途概述: 该数据集适用于垃圾邮件分类模型的训练和评估,通过使用增强后的数据集可以提高模型的准确性和稳定性。研究人员和开发者可以利用此数据集进行模型训练、验证和测试,以开发更有效的垃圾邮件过滤系统。此外,该数据集也可以用于自然语言处理领域的教学和研究,帮助学习者理解和掌握数据增强技术在实际应用中的重要性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.19 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。