数据集概述
本数据集是基于YAGO4构建的链接预测数据集,包含YAGO4-22k/、YAGO4-44k/、YAGO4-77k/、YAGO4-27k/和YAGO4-19k/五个子目录。每个子目录下提供实体、关系、类的URI与ID映射文件,以及训练、验证、测试集的URI格式和ID格式文件(含TXT和PKL两种格式),还包含实体与类关联、关系域值范围、类层级关系等辅助文件,用于知识图谱链接预测任务的模型训练与评估。
文件详解
- 映射文件(URI与ID对应)
- 文件名称:rel2id.txt/pkl、id2rel.txt/pkl、ent2id.txt/pkl、id2ent.txt/pkl、class2id.txt/pkl、id2class.txt/pkl
- 文件格式:TXT(制表符分隔)、PKL(字典格式)
- 字段映射介绍:TXT文件每行关联关系/实体/类的URI与ID;PKL文件为字典,键为URI,值为对应ID(或反之)
- 数据集文件(URI格式)
- 文件名称:train.txt/pkl、valid.txt/pkl、test.txt/pkl
- 文件格式:TXT(每行格式
.)、PKL(元组列表(subjectURI, relationURI, objectURI))
- 数据集文件(ID格式)
- 文件名称:trainIDs.txt/pkl、validIDs.txt/pkl、testIDs.txt/pkl
- 文件格式:TXT(制表符分隔,每行
subjectID relationID objectID)、PKL(元组列表(subjectID, relationID, objectID))
- 实体与类关联文件
- 文件名称:ent2classes.txt/pkl、entID2classIDs.txt/pkl、class2entities.txt/pkl、classID2entIDs.txt/pkl
- 文件格式:TXT(制表符分隔)、PKL(字典格式)
- 字段映射介绍:记录实体与其实例化类的URI或ID关联(含传递闭包计算结果)
- 关系域值范围文件
- 文件名称:r2dom.txt/pkl、rID2domID.txt/pkl、r2range.txt/pkl、rID2rangeID.txt/pkl
- 文件格式:TXT(制表符分隔)、PKL(字典格式)
- 字段映射介绍:记录关系的域(domain)和范围(range)的URI或ID
- 类层级关系文件
- 文件名称:class2allsuperclasses.txt/pkl、classID2allsuperclassIDs.txt/pkl、class2directsuperclasses.txt/pkl、classID2directsuperclassIDs.txt/pkl
- 文件格式:TXT(制表符分隔)、PKL(字典格式)
- 字段映射介绍:记录类的所有超类(含传递闭包)和直接超类的URI或ID
- 辅助文件
- 文件名称:statistics.md、additonal_rels.csv、yago-relations.csv
- 文件格式:MD、CSV
- 字段映射介绍:statistics.md为数据集统计信息;additonal_rels.csv记录构建训练集时补充的关系;yago-relations.csv记录YAGO关系的域、范围、三元组数量及是否用于验证/测试集
适用场景
- 知识图谱链接预测模型训练: 利用训练集、验证集和测试集训练并评估链接预测模型的性能
- 知识图谱实体与关系映射研究: 分析实体、关系、类的URI与ID映射规则及关联逻辑
- 知识图谱类层级结构分析: 基于类的超类关系文件研究知识图谱的本体层级体系
- 关系域值范围验证: 利用关系域和范围文件验证知识图谱中三元组的合理性
- 知识图谱数据集扩展研究: 参考additonal_rels.csv探索训练集补充三元组的方法与效果