俄罗斯股票市场社交媒体评论情绪分析数据集-2019-2024

俄罗斯股票市场社交媒体评论情绪分析数据集-2019-2024

数据来源:互联网公开数据

标签:股票评论,社交媒体,情绪分析,BERT,算法交易,俄罗斯,股票市场,Tinkoff Pulse,财经,文本分析

数据概述: 本数据集包含了2019年1月1日至2024年3月30日期间,Tinkoff Pulse(T-pulse)平台上关于10只俄罗斯股票的评论数据。选取的股票代码包括:SBER, GAZP, YNDX, TCSG, SGZH, PIKK, RTKM, MVID, KMAZ, BANE。 数据涵盖了俄罗斯央行关键利率调整、西方国家对俄罗斯联邦制裁等重要时期。评论语言主要为俄语,部分为英语。

数据字段包括:

inserted:评论发布日期 likesCount:评论的点赞数量 commentsCount:评论的评论数量 text:评论的原始文本(可能需要进行去表情符号等清洗) reactions_counters:包含评论下各种反应类型和数量的列表,例如“火箭”、“喜欢”、“不喜欢”、“不确定”、“买入”等表情符号。

此外,数据集还包含一个名为df_labelled_llm.csv的已标注数据集,其中包含了约1万条已标注的评论,每只股票约1000条。这些标注主要通过LLM(大型语言模型)完成,少量评论(约10%)由人工标注,主要针对俚语。

数据用途概述: 该数据集可用于多种研究和应用,包括:

股票评论的情绪分析 基于BERT等模型的微调 基于情绪分析的算法交易策略测试 学术研究 该数据集仅用于教育目的。数据中未包含评论作者的姓名、电话号码或地址等个人信息。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 5, 2025, 08:19 (UTC)
创建于 五月 5, 2025, 07:41 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。