ORKG_Based_开放研究知识图谱语义谓词聚类数据集

本数据集为开放研究知识图谱（ORKG）场景下的内容推荐系统构建而创建，包含基于ORKG比较分组的论文与谓词关联数据，以及用于模型训练和测试的文本实例数据。数据集总计包含三个JSON文件，可支持语义谓词推荐模型的开发与验证。

data.json
文件格式：JSON
字段映射介绍：主对象为comparisons列表，每个comparison包含id、label、papers列表和predicates列表；papers列表中每个paper包含id、label（标题）、doi、research_field（含id和label）、research_problems（含id和label的列表）、abstract；predicates列表中每个predicate包含id和label
training_set.json
文件格式：JSON
字段映射介绍：主对象为instances列表，每个instance包含instance_id（格式为comparison_id X paper_id）、comparison_id、paper_id、text（paper的label与abstract的拼接文本）
test_set.json
文件格式：JSON
字段映射介绍：结构与training_set.json一致，test实例不与training实例重复，training实例无重复但training论文可与不同comparison拼接重复

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	14.98 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。