企业电子邮件内容与员工情绪及职业对齐分析数据集-2011-mikeschmidtavemac
数据来源:互联网公开数据
标签:企业电子邮件,情感分析,职场对齐,Enron邮件库,数据科学,博客系列,教育,科研
数据概述:
本数据集是作为一篇关于利用数据科学技术分析企业电子邮件内容以评估员工情绪和职业对齐情况的博客系列的一部分而产生的。该系列博客涵盖了原始数据提取、数据分析、无监督主题发现和监督模型开发等内容。数据集使用了公开的Enron电子邮件数据集,包含电子邮件正文文本以及各种支持特征(如电子邮件地址、日期时间等),并附加了多种分类标签。
数据集生成了三个关于情感的标签,每个标签有三个类别(正面、负面、中性/未知)。同时,还生成了三个关于对齐情况的标签,每个标签有两类(业务/个人、工作/娱乐)。
数据集中的情感分析使用了来自http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html的情绪词典,由Minqing Hu和Bing Liu在2004年的KDD会议上的研究成果提供;还使用了NLTK库中的VADER工具,该工具由Hutto和Gilbert在2014年的ICWSM会议上提出,适用于社交媒体文本的情感分析;此外,还使用了AFINN词典,该词典由Finn Årup Nielsen在2011年的ESWC会议上提出,适用于微博等微短文本的情感分析。
数据用途概述:
该数据集适用于企业内部的电子邮件内容分析、员工情绪评估、职业对齐研究、数据科学教育和研究等场景。企业可以通过分析员工的电子邮件内容来更好地理解员工的情绪状态和工作态度,从而采取相应的措施提升员工的工作满意度和团队凝聚力。教育机构和研究人员可以利用此数据集进行情感分析、主题发现、监督模型开发等教学和研究活动。此数据集为相关领域的研究者和实践者提供了有价值的数据资源。
博客文章链接:
Part 1. 原始电子邮件处理。https://www.avemacconsulting.com/2021/08/24/email-insights-from-data-science-techniques-part-1/
Part 2. 数据分析。https://www.avemacconsulting.com/2021/08/27/email-insights-from-data-science-part-2/
Part 3. 无监督主题分类(生成此数据集)。https://www.avemacconsulting.com/2021/09/23/email-insights-from-data-science-part-3/
Part 4. 监督建模(使用此数据集)。https://www.avemacconsulting.com/2021/10/12/email-insights-from-data-science-part-4/
注意事项:
此数据集为博客系列的一部分,未经100%验证。尤其是无监督主题提取步骤需要进一步调优以提高准确性。