数据集概述
该数据集包含基于OpenAlex 2023年11月快照的研究出版物算法分类结果,采用扩展直接引用法结合Leiden算法构建三级分层分类体系,覆盖2000-2023年7100万篇关联文献,含4521个微集群、917个中集群及20个宏集群,并关联五大主领域分类。
文件详解
数据集包含多个TSV格式文件,具体说明如下:
- clustering.tsv:字段包括work_id、doi、macro_cluster_id、meso_cluster_id、micro_cluster_id
- main_field.tsv:字段包括main_field_id、main_field
- macro_cluster.tsv:字段包括macro_cluster_id、macro_cluster、n_works
- macro_cluster_main_field.tsv:字段包括macro_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field
- meso_cluster.tsv:字段包括meso_cluster_id、meso_cluster、parent_macro_cluster_id、n_works
- meso_cluster_main_field.tsv:字段包括meso_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field
- meso_cluster_source.tsv:字段包括meso_cluster_id、source_seq、source_id、n_works
- micro_cluster.tsv:字段包括micro_cluster_id、micro_cluster、short_label、long_label、keywords、summary、wikipedia_url、parent_macro_cluster_id、parent_meso_cluster_id、n_works
- micro_cluster_main_field.tsv:字段包括micro_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field
- micro_cluster_keyword.tsv:字段包括micro_cluster_id、keyword_seq、keyword
- micro_cluster_source.tsv:字段包括micro_cluster_id、source_seq、source_id、n_works
数据来源
OpenAlex
适用场景
- 学术文献计量研究:分析不同学科领域文献的分布与引用关联
- 科研趋势分析:识别各层级集群的研究热点及发展动态
- 学科分类体系优化:为学术分类标准完善提供数据支撑
- 信息检索与推荐:辅助构建文献主题检索及相关推荐系统
- 科研政策制定:为科研资源分配及领域发展规划提供参考