数据集概述
本数据集为Wikidata的RDF格式转储数据,由wdumps工具生成。包含实体、声明及三元组等结构化数据,以多种文件格式存储,可用于知识图谱构建、语义网研究等场景,共包含四个数据文件。
文件详解
info.json:JSON格式,包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段,记录转储基本信息
preview.nt:NT格式,为RDF三元组预览文件
wdumper-spec.json:JSON格式,包含sitelinks、version、aliases、entities、statements、labels、meta、descriptions字段,定义转储规格
wdump-68.nt.gz:GZ压缩格式,为RDF三元组压缩文件
数据来源
Wikidata
适用场景
- 知识图谱构建:利用RDF三元组数据构建结构化知识图谱
- 语义网研究:分析Wikidata的语义数据模型及关联关系
- 数据挖掘:挖掘实体、属性及声明间的潜在关联
- 数据集成:将Wikidata数据与其他知识库进行融合集成