比特币价格预测多模态数据集-推特文本-价格与交易量-2019-2023
数据来源:互联网公开数据
标签:比特币,价格预测,推特,社交媒体,文本分析,金融,时间序列,机器学习
数据概述:
本数据集是论文“PreBit - 一种使用推特FinBERT嵌入的多模态模型,用于预测比特币极端价格波动”的配套数据集。该数据集整合了经过预处理的推特文本数据、比特币价格数据以及基于价格-交易量的支持向量机模型数据。推特文本数据经过处理,将每天的推文拼接成文本切片,每个切片包含200个词的token,相邻切片之间有50个token的重叠。数据中包含推文发布日期。请注意,2019年1月至3月的推文数据在该数据集中缺失。此外,数据集还包括用于创建标签和基于价格-交易量SVM模型训练的比特币价格数据。
数据用途概述:
该数据集主要用于比特币价格波动预测研究。研究人员可以使用推特文本数据进行情感分析、主题建模等,结合比特币价格数据,探索社交媒体情绪对比特币价格的影响。数据集也适用于构建和评估各种预测模型,例如多模态模型、基于时间序列的模型等,以预测比特币价格的极端波动。此外,该数据集可用于验证和改进论文中提出的PreBit模型,并为金融领域的文本分析和预测研究提供参考。