俄罗斯股票市场社交媒体评论情绪分析数据集-2019-2024
数据来源:互联网公开数据
标签:股票评论,社交媒体,情绪分析,BERT,算法交易,俄罗斯,股票市场,Tinkoff Pulse,财经,文本分析
数据概述:
本数据集包含了2019年1月1日至2024年3月30日期间,Tinkoff Pulse(T-pulse)平台上关于10只俄罗斯股票的评论数据。选取的股票代码包括:SBER, GAZP, YNDX, TCSG, SGZH, PIKK, RTKM, MVID, KMAZ, BANE。 数据涵盖了俄罗斯央行关键利率调整、西方国家对俄罗斯联邦制裁等重要时期。评论语言主要为俄语,部分为英语。
数据字段包括:
inserted:评论发布日期
likesCount:评论的点赞数量
commentsCount:评论的评论数量
text:评论的原始文本(可能需要进行去表情符号等清洗)
reactions_counters:包含评论下各种反应类型和数量的列表,例如“火箭”、“喜欢”、“不喜欢”、“不确定”、“买入”等表情符号。
此外,数据集还包含一个名为df_labelled_llm.csv的已标注数据集,其中包含了约1万条已标注的评论,每只股票约1000条。这些标注主要通过LLM(大型语言模型)完成,少量评论(约10%)由人工标注,主要针对俚语。
数据用途概述:
该数据集可用于多种研究和应用,包括:
股票评论的情绪分析
基于BERT等模型的微调
基于情绪分析的算法交易策略测试
学术研究
该数据集仅用于教育目的。数据中未包含评论作者的姓名、电话号码或地址等个人信息。