联系表单垃圾邮件数据集

联系表单垃圾邮件数据集 数据来源:互联网公开数据 标签:联系表单,垃圾邮件,机器学习,分类模型,数据清洗,数据标注,非商业用途,CC BY-NC 4.0许可

数据概述: 本数据集包含超过2,000条来自多个网站的垃圾邮件联系表单提交记录。该数据集可用于构建分类机器学习模型或其他垃圾邮件过滤系统。目前,数据集仍在持续更新中,预计未来将包含更多数据。

数据集中所有的表单包含三个字段:电子邮件、姓名和消息。尽管这些字段的标签在不同网站上可能略有不同(例如,一个网站可能将姓名字段标记为“Name”,而另一个网站可能标记为“What is your name?”)。为了避免包含真实用户的电子邮件地址,数据集中不包括任何实际提交者的“电子邮件”字段。

需要注意的是,该数据集仅包含垃圾邮件(即“spam”)的提交记录,不包含非垃圾邮件(即“ham”)的记录,因此在使用时应与其他数据集或自有数据结合使用。

此外,一些垃圾邮件机器人会在数天至数周内多次提交相同的或略有差异的表单,因此数据集中可能存在重复提交或非常相似的提交记录。某些机器人(例如关于比特币的机器人)可能会将消息输入到“姓名”字段中,并将一些随机的字母数字字符输入到“消息”字段中,数据集保留了这些原始输入,以便于训练和分析。

数据用途概述: 该数据集适用于机器学习模型的训练和验证,特别是垃圾邮件分类模型的开发。研究人员可以通过数据集了解垃圾邮件的常见模式和提交策略;网站管理员可以利用该数据集提高其网站的垃圾邮件过滤效果;教育机构和培训项目可以使用此数据集进行教学和培训,帮助学习者了解垃圾邮件攻击的机制和防范方法。

许可证信息: 大多数我的数据集、模型和研究,包括本数据集,均采用CC BY-NC 4.0许可发布。这意味着您可以在非商业用途的情况下自由使用这些数据,只要您提供适当的引用和署名。如需商业用途,请通过我的网站与我联系以获取商业许可。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.09 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。