数据集概述
本数据集为开放研究知识图谱(ORKG)场景下的内容推荐系统构建而创建,包含基于ORKG比较分组的论文与谓词关联数据,以及用于模型训练和测试的文本实例数据。数据集总计包含三个JSON文件,可支持语义谓词推荐模型的开发与验证。
文件详解
data.json
- 文件格式:JSON
- 字段映射介绍:主对象为comparisons列表,每个comparison包含id、label、papers列表和predicates列表;papers列表中每个paper包含id、label(标题)、doi、research_field(含id和label)、research_problems(含id和label的列表)、abstract;predicates列表中每个predicate包含id和label
training_set.json
- 文件格式:JSON
- 字段映射介绍:主对象为instances列表,每个instance包含instance_id(格式为comparison_id X paper_id)、comparison_id、paper_id、text(paper的label与abstract的拼接文本)
test_set.json
- 文件格式:JSON
- 字段映射介绍:结构与training_set.json一致,test实例不与training实例重复,training实例无重复但training论文可与不同comparison拼接重复
适用场景
- 学术推荐系统开发: 基于论文标题和摘要的语义内容,推荐ORKG中相关的语义谓词
- 开放研究知识图谱分析: 研究ORKG中论文、谓词、研究领域等实体的关联模式
- 语义聚类模型训练: 以论文文本为输入,训练谓词语义聚类的机器学习模型
- 学术数据统计分析: 分析ORKG中比较分组内论文、谓词、研究领域的数量分布特征