埃尼隆电子邮件数据集-2001至2002年-bertvankeulen
数据来源:互联网公开数据
标签:埃尼隆,电子邮件,垃圾邮件,数据分析,spam,过滤器测试,机器学习,NB,希腊信息学与电信研究所
数据概述:
本数据集包含埃尼隆公司600,000封电子邮件中的33,716封,这些邮件来自158名员工,时间范围为2001年至2002年。数据集由美国联邦能源监管委员会公开,后被麻省理工学院购买并进行了处理,包括部分信息的遮蔽和附件的删除。该数据集的版本目前仍可在美国国会图书馆和卡内基梅隆大学网站获取。数据集的一个常用子集由希腊信息学与电信研究所的研究人员创建,用于分析和测试多种垃圾邮件过滤器,包括不同版本的朴素贝叶斯算法。
数据集包含以下字段:
- 主题与内容:邮件的主题和内容被合并为一个字段。
- 原始文件名:原始电子邮件文件的名称,单独列出。
数据集中的邮件被标记为垃圾邮件(17,171封)和非垃圾邮件(16,545封)。这些数据适用于垃圾邮件过滤技术的研究与开发。
数据用途概述:
该数据集适用于垃圾邮件过滤算法的开发与评估、电子邮件数据分析、机器学习模型的训练与测试等场景。研究人员可以利用此数据集验证和改进垃圾邮件过滤器的性能;教育机构可以使用该数据集进行教学和实验;企业可以利用数据集优化其邮件系统的垃圾邮件识别能力。此外,该数据集还适用于研究电子邮件通信模式和内容分析等相关领域。