数据集

电子邮件垃圾邮件分类练习数据集-nanditapore

电子邮件垃圾邮件分类练习数据集-nanditapore 数据来源：互联网公开数据标签：垃圾邮件,电子邮件,分类,机器学习,教育,合成数据,特征提取

数据概述：本数据集包含用于垃圾邮件分类练习的合成数据。数据集包含了从电子邮件消息中提取的各种特征，例如电子邮件内容、发件人和收件人信息，以及日期和时间、附件数量、链接数量等元数据。

字段定义： - Email: 发件人的电子邮件地址。 - Subject: 电子邮件的主题行。 - Sender: 发件人的电子邮件地址。 - Recipient: 收件人的电子邮件地址。 - Date: 电子邮件的发送日期。 - Time (24小时格式): 电子邮件的发送时间（24小时格式）。 - Attachments: 电子邮件中的附件数量。 - Link Count: 电子邮件中的超链接数量。 - Word Count: 电子邮件中的总单词数。 - Uppercase Count: 电子邮件中大写字母单词的数量。 - Exclamation Count: 电子邮件中的感叹号数量。 - Question Count: 电子邮件中的问号数量。 - Dollar Count: 电子邮件中的美元符号数量。 - Punctuation Count: 电子邮件中各种标点符号的数量（如逗号、句号）。 - HTML Tags Count: 电子邮件中的HTML标签数量。 - Spam Indicator: 二进制标签，指示电子邮件是否为垃圾邮件（1为垃圾邮件，0为非垃圾邮件）。

数据用途概述：该数据集适用于练习和实验二元分类任务，特别是垃圾邮件分类。参与者可以探索不同特征与垃圾邮件指示器之间的关系，以构建和评估检测垃圾邮件的机器学习模型。请注意，此数据集包含为教育目的生成的合成数据。

注意事项：该数据集中的数据是合成的，并使用Faker库生成，以随机值进行演示。它并不准确地代表真实的电子邮件内容或垃圾邮件特征。因此，建议将此数据集用于学习和练习分类技术，而不是用于开发生产级别的模型。

致谢：此数据集是为了教育目的而创建的，并受到现实世界电子邮件数据的启发。它使用Faker库生成，并在Creative Commons许可证下发布。

数据与资源

versions_20250408033736.zipZIP
0.29 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.29 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

电子邮件垃圾邮件分类练习数据集-nanditapore

数据与资源

附加信息

注册成功！