新闻分享量预测数据集-Mashable新闻文章特征-2年
数据来源:互联网公开数据
标签:新闻,社交媒体,机器学习,文本分析,分享量预测,Mashable,特征工程
数据概述:
本数据集包含Mashable新闻网站上发布的文章的相关特征,旨在用于预测新闻文章在社交媒体上的分享量。数据来源于Machine Hack平台,涵盖了大约两年的时间跨度,提供了文章标题、内容、发布时间、关键词、链接、图片、视频等多种维度的数据统计,以及文章主题、情感分析等方面的特征。数据集包含训练集(7928行,59列)和测试集(31716行,58列),其中训练集包含目标变量——文章分享量。
数据集中包含58个特征变量,这些特征变量涵盖了文章内容、标题、关键词、发布渠道、发布日期等多个方面。具体包括:
* 文本特征:标题和内容中的词汇数量、唯一词汇比例、停用词比例、链接数量、图片数量、视频数量、关键词数量等。
* 情感分析特征:文章和标题的主观性、情感极性、正面/负面词汇比例等。
* 关键词特征:与关键词相关的分享量统计数据。
* 发布渠道特征:文章所属频道(例如,生活方式、娱乐、商业、社交媒体、科技、世界新闻)
* 发布时间特征:文章发布日期(星期几、是否周末)
* LDA主题特征:文章与不同LDA主题的接近程度。
数据用途概述:
该数据集可用于构建机器学习模型,预测新闻文章在社交媒体上的分享量,从而帮助内容创作者和营销人员更好地理解影响文章受欢迎程度的因素,优化内容发布策略,提高文章的曝光率和传播效果。具体应用场景包括:
* 新闻内容分析:分析文章内容、标题、关键词等因素与分享量的关系。
* 社交媒体营销:优化内容发布策略,提高文章在社交媒体上的传播效果。
* 推荐系统:构建个性化新闻推荐系统,根据用户兴趣推荐更受欢迎的文章。
* 数据挖掘与机器学习:用于机器学习模型的训练和评估,探索特征工程方法。
* 研究与教育:用于学术研究,探索新闻传播规律;用于教学实践,帮助学生理解数据分析和机器学习的应用。