数据集概述
本数据集围绕女性图书馆员相关文章的主题建模展开,包含用于NLP分析的代码文件、数据文件及文献检索查询文件,共4个文件,覆盖主题建模的核心过程与数据基础。
文件详解
- 代码文件
- 文件名称:Bertopic_Female_Lib.ipynb、scattertext.ipynb
- 文件格式:.ipynb
- 字段映射介绍:包含主题建模(如BERTopic)和文本可视化(如Scattertext)的代码实现,用于处理女性图书馆员相关文章的文本数据并生成主题模型
- 数据文件
- 文件名称:female_clean.json
- 文件格式:.json
- 字段映射介绍:存储清洗后的女性图书馆员相关文章文本数据,核心字段为nlp_text(文本内容)
- 检索查询文件
- 文件名称:search-query.txt
- 文件格式:.txt
- 字段映射介绍:包含文献检索的关键词组合,如"female PRE/2 librarian*"等,用于获取女性图书馆员相关的研究文献
适用场景
- 文献主题趋势分析: 利用主题建模结果,分析女性图书馆员领域研究主题的分布与演变
- 文本可视化研究: 通过scattertext文件实现女性图书馆员相关文本的交互式可视化,辅助主题理解
- 文献检索策略优化: 基于search-query.txt的检索逻辑,优化图书馆学领域特定主题的文献检索效率
- 自然语言处理应用: 作为NLP主题建模任务的案例数据,用于BERTopic等模型的实践与验证