基于OpenAlex的研究出版物分类数据集2023

数据集概述

该数据集包含基于OpenAlex 2023年11月快照的研究出版物算法分类结果,采用扩展直接引用法结合Leiden算法构建三级分层分类体系,覆盖2000-2023年7100万篇关联文献,含4521个微集群、917个中集群及20个宏集群,并关联五大主领域分类。

文件详解

数据集包含多个TSV格式文件,具体说明如下: - clustering.tsv:字段包括work_id、doi、macro_cluster_id、meso_cluster_id、micro_cluster_id - main_field.tsv:字段包括main_field_id、main_field - macro_cluster.tsv:字段包括macro_cluster_id、macro_cluster、n_works - macro_cluster_main_field.tsv:字段包括macro_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field - meso_cluster.tsv:字段包括meso_cluster_id、meso_cluster、parent_macro_cluster_id、n_works - meso_cluster_main_field.tsv:字段包括meso_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field - meso_cluster_source.tsv:字段包括meso_cluster_id、source_seq、source_id、n_works - micro_cluster.tsv:字段包括micro_cluster_id、micro_cluster、short_label、long_label、keywords、summary、wikipedia_url、parent_macro_cluster_id、parent_meso_cluster_id、n_works - micro_cluster_main_field.tsv:字段包括micro_cluster_id、main_field_seq、main_field_id、weight、is_primary_main_field - micro_cluster_keyword.tsv:字段包括micro_cluster_id、keyword_seq、keyword - micro_cluster_source.tsv:字段包括micro_cluster_id、source_seq、source_id、n_works

数据来源

OpenAlex

适用场景

  • 学术文献计量研究:分析不同学科领域文献的分布与引用关联
  • 科研趋势分析:识别各层级集群的研究热点及发展动态
  • 学科分类体系优化:为学术分类标准完善提供数据支撑
  • 信息检索与推荐:辅助构建文献主题检索及相关推荐系统
  • 科研政策制定:为科研资源分配及领域发展规划提供参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 994.98 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。