数据集概述
该数据集是论文《Narrative Forecasts》的在线附录、数据及代码仓库,包含回归分析代码、情感分析代码、主题编码数据等文件,为复现论文研究提供支持。
文件详解
该数据集包含10个文件,具体说明如下:
- 文档与说明文件:
- README.txt:文本格式,描述仓库内代码及主回归所用数据集的说明文件
- online_appendix.pdf:PDF格式,论文的在线附录文档
- sentiment_hpc.txt:文本格式,需在超算(如根特大学HPC)运行的情感分析相关代码说明,涉及earnings calls数据集(df_all1-4.pkl)
- 代码文件:
- IBES_reg_70_error.do:Stata代码格式,IBES相关回归分析代码(70误差维度)
- IBES_reg_450_quarter.do:Stata代码格式,IBES相关回归分析代码(450季度维度)
- IBES_reg7_magnitude.do:Stata代码格式,IBES相关回归分析代码(7幅度维度)
- IBES_reg_70_quarter_topic.do:Stata代码格式,IBES相关回归分析代码(70季度主题维度)
- sentiment_analysis.ipynb:Jupyter Notebook格式,文本初始清洗、移除礼貌用语并生成情感指数的代码
- 数据与压缩文件:
- topic_codes.zip:压缩包格式,主题编码相关数据文件
- sentiment_data.dta:Stata数据格式,情感分析相关数据集
适用场景
- 金融预测研究:复现论文中叙事预测相关的实证分析
- 文本情感分析应用:基于财报电话会议文本的情感指数构建与验证
- 计量经济学研究:学习IBES数据集在不同维度回归模型中的应用
- 计算语言学应用:探索自然语言处理技术在金融文本分析中的实践