数据集概述
该数据集是ESM论文的技术附录,包含CERME主题模型相关的文件,涉及主题分布列表、模型可视化结果、生成模型的代码等内容,以确保研究透明度,为理解CERME主题模型的构建与结果提供支持。
文件详解
- 文件名称:Topic_model_CERME.ipynb,文件格式:.ipynb
- 内容:生成CERME主题模型的代码文件,用于复现模型构建过程
- 文件名称:Topic visualization.html,文件格式:.html
- 内容:主题模型可视化结果文件,可直观查看主题分布特征
- 文件名称:ESM_CERME_technical appendix.pdf,文件格式:.pdf
- 内容:ESM论文的技术附录文档,提供研究背景与方法细节
- 文件名称:List of topic distribution per document.csv,文件格式:.csv
- 内容:包含每个文档的主题分布数据,字段示例:Filename(文件名)、cleantext(清洗后文本)、cermegroup(CERME分组)、cermeyear(CERME年份)、topic 0 contribution(主题0贡献度)等
- 文件名称:requirements.txt,文件格式:.txt
- 内容:环境依赖清单,包含fuzzywuzzy、gensim、matplotlib等库的版本信息
适用场景
- 主题模型研究:用于复现CERME主题模型的构建过程,验证模型结果
- 文本分析领域:分析文档主题分布特征,探究CERME相关文本的主题结构
- 学术研究透明度实践:作为技术附录支持,展示研究中模型构建的可重复性
- 自然语言处理教学:用于主题模型构建与可视化的教学案例分析