电子邮件垃圾邮件分类练习数据集-nanditapore

电子邮件垃圾邮件分类练习数据集-nanditapore 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,分类,机器学习,教育,合成数据,特征提取

数据概述: 本数据集包含用于垃圾邮件分类练习的合成数据。数据集包含了从电子邮件消息中提取的各种特征,例如电子邮件内容、发件人和收件人信息,以及日期和时间、附件数量、链接数量等元数据。

字段定义: - Email: 发件人的电子邮件地址。 - Subject: 电子邮件的主题行。 - Sender: 发件人的电子邮件地址。 - Recipient: 收件人的电子邮件地址。 - Date: 电子邮件的发送日期。 - Time (24小时格式): 电子邮件的发送时间(24小时格式)。 - Attachments: 电子邮件中的附件数量。 - Link Count: 电子邮件中的超链接数量。 - Word Count: 电子邮件中的总单词数。 - Uppercase Count: 电子邮件中大写字母单词的数量。 - Exclamation Count: 电子邮件中的感叹号数量。 - Question Count: 电子邮件中的问号数量。 - Dollar Count: 电子邮件中的美元符号数量。 - Punctuation Count: 电子邮件中各种标点符号的数量(如逗号、句号)。 - HTML Tags Count: 电子邮件中的HTML标签数量。 - Spam Indicator: 二进制标签,指示电子邮件是否为垃圾邮件(1为垃圾邮件,0为非垃圾邮件)。

数据用途概述: 该数据集适用于练习和实验二元分类任务,特别是垃圾邮件分类。参与者可以探索不同特征与垃圾邮件指示器之间的关系,以构建和评估检测垃圾邮件的机器学习模型。请注意,此数据集包含为教育目的生成的合成数据。

注意事项: 该数据集中的数据是合成的,并使用Faker库生成,以随机值进行演示。它并不准确地代表真实的电子邮件内容或垃圾邮件特征。因此,建议将此数据集用于学习和练习分类技术,而不是用于开发生产级别的模型。

致谢: 此数据集是为了教育目的而创建的,并受到现实世界电子邮件数据的启发。它使用Faker库生成,并在Creative Commons许可证下发布。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.29 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。