数据集概述
该数据集是ESM论文的技术附录,包含CERME主题模型的相关文件,涵盖主题分布列表、可视化结果及模型生成代码,旨在确保研究透明度,为主题模型相关分析提供支持。
文件详解
- 文档类文件:
- Topic_model_CERME - pdf version.pdf: PDF格式,主题模型的PDF版本文档
- ESM_CERME_technical appendix.pdf: PDF格式,ESM论文的技术附录文档
- 数据类文件:
- List of topic distribution per document.csv: CSV格式,包含文档名称、清洗文本、CERME组别、年份及各主题贡献度等字段
- 代码类文件:
- Topic_model_CERME.ipynb: Jupyter Notebook格式,生成主题模型的代码文件
- requirements.txt: TXT格式,记录依赖库版本,如fuzzywuzzy、gensim等
- 其他文件:
- Topic visualization.html: HTML格式,主题模型的可视化文件
适用场景
- 主题模型研究: 用于复现CERME相关主题模型的构建过程与结果
- 学术论文补充分析: 作为ESM论文的技术附录支持,辅助理解研究方法
- 自然语言处理实践: 学习主题模型的代码实现与可视化方法
- 文献主题分布分析: 基于文档主题贡献度数据开展文本主题特征研究