数据集

股票市场文本情感分析数据集StockMarketTextSentimentAnalysis-piyushkhann00705

数据来源：互联网公开数据

标签：股票市场, 文本情感分析, 金融文本, 情绪分析, 时间序列, 机器学习, 文本特征, 财务数据

数据概述：该数据集包含来自公开金融新闻和公告的文本数据，以及对应的股票市场表现指标，主要用于文本情感分析和预测股票价格走势。主要特征如下：时间跨度：数据记录的时间范围，从具体年份开始至具体年份结束（由于没有明确的起始和结束时间，请根据实际数据情况补充）。地理范围：数据覆盖的股票市场，通常为美国股票市场（请根据实际数据情况补充）。数据维度：数据集包括股票代码(ticker)、公司名称(name)、日期(year, month, day)、文本文件名(text_file_name)、过去和未来不同时间窗口的股票价格变化（past_3, past_7, past_15, past_30, future_3, future_7, future_15, future_30），以及文本情感分析指标（positive, negative, litigious, constraining, modal, hedge, events, numbers, org_loc, persons, products, concreteness_ratio, total_tokens）。部分数据集中还包含基于BSH模型计算的指标（Net_Change_3, Net_Change_Per_3, Net_Change_7, Net_Change_Per_7, Net_Change_15, Net_Change_Per_15, Net_Change_30, Net_Change_Per_30, BSH_day3, BSH_day7, BSH_day15, BSH_day30）。数据格式：数据主要以CSV格式存储，包括train_split2.csv, test_split2.csv, val_split2.csv, train_split_BSH.csv, test_split_BSH.csv, val_split_BSH.csv等，此外还包含pickle(.pkl)、JSON(.json)、H5(.h5)和Numpy(.npy)等多种格式的文件，用于存储中间处理结果、预训练模型参数、音频特征等，方便不同数据处理和模型训练需求。来源信息：数据来源于公开的金融新闻、公司公告等，并经过了文本提取、情感分析和数据整合等处理。该数据集适合用于金融文本分析、情感分析、时间序列预测等领域的研究和应用。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于金融领域的情感分析研究、股票价格预测模型构建、量化交易策略开发等。行业应用：可以为金融机构、投资公司、量化基金等提供数据支持，用于风险评估、市场预测、投资决策等。决策支持：支持金融分析师、投资经理等进行数据驱动的决策，优化投资组合，提升投资回报。教育和培训：作为金融工程、数据科学、机器学习等相关课程的实践案例，帮助学生深入理解文本情感分析在金融领域的应用。此数据集特别适合用于探索新闻文本的情感变化与股票市场价格波动之间的关系，帮助用户构建预测模型，提高市场预测的准确性，并为投资决策提供参考。

数据与资源

versions_1741594359.zipZIP
424.49 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	424.49 MiB
最后更新	2025年5月29日
创建于	2025年5月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

股票市场文本情感分析数据集StockMarketTextSentimentAnalysis-piyushkhann00705

数据与资源

附加信息

注册成功！