YAGO4_LP_Based知识图谱链接预测数据集

数据集概述

本数据集是基于YAGO4构建的链接预测数据集,包含YAGO4-22k/、YAGO4-44k/、YAGO4-77k/、YAGO4-27k/和YAGO4-19k/五个子目录。每个子目录下提供实体、关系、类的URI与ID映射文件,以及训练、验证、测试集的URI格式和ID格式文件(含TXT和PKL两种格式),还包含实体与类关联、关系域值范围、类层级关系等辅助文件,用于知识图谱链接预测任务的模型训练与评估。

文件详解

  • 映射文件(URI与ID对应)
  • 文件名称:rel2id.txt/pkl、id2rel.txt/pkl、ent2id.txt/pkl、id2ent.txt/pkl、class2id.txt/pkl、id2class.txt/pkl
  • 文件格式:TXT(制表符分隔)、PKL(字典格式)
  • 字段映射介绍:TXT文件每行关联关系/实体/类的URI与ID;PKL文件为字典,键为URI,值为对应ID(或反之)
  • 数据集文件(URI格式)
  • 文件名称:train.txt/pkl、valid.txt/pkl、test.txt/pkl
  • 文件格式:TXT(每行格式.)、PKL(元组列表(subjectURI, relationURI, objectURI)
  • 数据集文件(ID格式)
  • 文件名称:trainIDs.txt/pkl、validIDs.txt/pkl、testIDs.txt/pkl
  • 文件格式:TXT(制表符分隔,每行subjectID relationID objectID)、PKL(元组列表(subjectID, relationID, objectID)
  • 实体与类关联文件
  • 文件名称:ent2classes.txt/pkl、entID2classIDs.txt/pkl、class2entities.txt/pkl、classID2entIDs.txt/pkl
  • 文件格式:TXT(制表符分隔)、PKL(字典格式)
  • 字段映射介绍:记录实体与其实例化类的URI或ID关联(含传递闭包计算结果)
  • 关系域值范围文件
  • 文件名称:r2dom.txt/pkl、rID2domID.txt/pkl、r2range.txt/pkl、rID2rangeID.txt/pkl
  • 文件格式:TXT(制表符分隔)、PKL(字典格式)
  • 字段映射介绍:记录关系的域(domain)和范围(range)的URI或ID
  • 类层级关系文件
  • 文件名称:class2allsuperclasses.txt/pkl、classID2allsuperclassIDs.txt/pkl、class2directsuperclasses.txt/pkl、classID2directsuperclassIDs.txt/pkl
  • 文件格式:TXT(制表符分隔)、PKL(字典格式)
  • 字段映射介绍:记录类的所有超类(含传递闭包)和直接超类的URI或ID
  • 辅助文件
  • 文件名称:statistics.md、additonal_rels.csv、yago-relations.csv
  • 文件格式:MD、CSV
  • 字段映射介绍:statistics.md为数据集统计信息;additonal_rels.csv记录构建训练集时补充的关系;yago-relations.csv记录YAGO关系的域、范围、三元组数量及是否用于验证/测试集

适用场景

  • 知识图谱链接预测模型训练: 利用训练集、验证集和测试集训练并评估链接预测模型的性能
  • 知识图谱实体与关系映射研究: 分析实体、关系、类的URI与ID映射规则及关联逻辑
  • 知识图谱类层级结构分析: 基于类的超类关系文件研究知识图谱的本体层级体系
  • 关系域值范围验证: 利用关系域和范围文件验证知识图谱中三元组的合理性
  • 知识图谱数据集扩展研究: 参考additonal_rels.csv探索训练集补充三元组的方法与效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 60.5 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。