ORKG_Based_开放研究知识图谱语义谓词聚类数据集

数据集概述

本数据集为开放研究知识图谱(ORKG)场景下的内容推荐系统构建而创建,包含基于ORKG比较分组的论文与谓词关联数据,以及用于模型训练和测试的文本实例数据。数据集总计包含三个JSON文件,可支持语义谓词推荐模型的开发与验证。

文件详解

  • data.json
  • 文件格式:JSON
  • 字段映射介绍:主对象为comparisons列表,每个comparison包含id、label、papers列表和predicates列表;papers列表中每个paper包含id、label(标题)、doi、research_field(含id和label)、research_problems(含id和label的列表)、abstract;predicates列表中每个predicate包含id和label
  • training_set.json
  • 文件格式:JSON
  • 字段映射介绍:主对象为instances列表,每个instance包含instance_id(格式为comparison_id X paper_id)、comparison_id、paper_id、text(paper的label与abstract的拼接文本)
  • test_set.json
  • 文件格式:JSON
  • 字段映射介绍:结构与training_set.json一致,test实例不与training实例重复,training实例无重复但training论文可与不同comparison拼接重复

适用场景

  • 学术推荐系统开发: 基于论文标题和摘要的语义内容,推荐ORKG中相关的语义谓词
  • 开放研究知识图谱分析: 研究ORKG中论文、谓词、研究领域等实体的关联模式
  • 语义聚类模型训练: 以论文文本为输入,训练谓词语义聚类的机器学习模型
  • 学术数据统计分析: 分析ORKG中比较分组内论文、谓词、研究领域的数量分布特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 14.98 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。