法国财经新闻与股票市场情绪分析预测数据集-2018年11月至2021年3月-arcticgiant
数据来源:互联网公开数据
标签:财经新闻,法国,股票市场,情绪分析,CAC40,预测,自然语言处理,时间序列,VADER,翻译
数据概述:
本数据集包含了约41500篇法国财经新闻,数据采集自一家知名财经媒体网站,时间跨度为2018年11月至2021年3月。为了方便使用,数据集中还包含了新闻的英文翻译(使用Helsinki-NLP/opus-mt-fr-en模型)以及基于VADER模型的Sentiment情绪分析结果。
数据集中包含两个主要文件:
FrenchNews.csv:原始数据集,包含抓取的41500篇法国财经新闻。
FrenchNewsDayConcat.csv:经过预处理的数据集,将新闻按天聚合,并与CAC40指数进行比较。每日新闻数量(NbrNewsJour参数)随时间变化。新闻数量总体上呈现增长趋势。
数据分析结果:
通过分析,可以观察到新冠疫情对新闻情绪(紫色曲线)和CAC40指数(蓝色曲线)的影响。新闻情绪与股票市场之间存在明显关联。(注:2020年3月:新冠疫情爆发;2020年11月:辉瑞疫苗发布。)
基于此数据集,可以进行以下分析和预测:
CAC40次日开盘价预测:初步预测结果。
CAC40未来20天预测:多日预测结果不够精确。
标题、正文和URL文本情绪对比:标题通常更具戏剧性以吸引读者。
数据用途概述:
该数据集可用于多种研究,包括但不限于:
股票市场预测:利用新闻文本进行CAC40指数预测。
主题趋势分析:分析新闻文本,了解不同时间段内财经新闻的主要关注点。
情绪分析与市场关联:研究新闻情绪与股票市场表现之间的关系。
自然语言处理应用:探索自然语言处理技术在金融领域的应用。
时间序列分析:分析新闻数据的时间序列特征。