数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF格式转储数据,包含实体、标签、描述、别名、站点链接、声明等知识图谱核心信息,以及数据生成工具的元数据记录。数据集共包含4个文件,涵盖配置、元数据、预览和压缩数据四种类型。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段,记录数据生成的工具版本、日期及数据量统计。
- 文件名称:wdump-72.nt.gz
- 文件格式:GZ(压缩文件)
- 字段映射介绍:RDF格式的Wikidata数据压缩包,包含以N-Triples格式存储的知识图谱三元组数据。
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、languages、version、aliases、entities、statements、labels、meta、descriptions等配置字段,定义Wikidata转储的结构规范。
- 文件名称:preview.nt
- 文件格式:NT(N-Triples)
- 字段映射介绍:Wikidata RDF数据的预览文件,以N-Triples格式存储知识图谱的三元组示例数据。
适用场景
- 知识图谱构建与分析: 利用RDF格式的Wikidata数据进行知识图谱的构建、补全及语义关系分析。
- 语义网技术研究: 基于N-Triples格式数据开展语义网数据存储、查询与推理技术的研究。
- 数据转储工具验证: 通过配置文件和元数据,验证wdumps工具生成Wikidata转储数据的规范性与完整性。
- 知识图谱元数据分析: 利用info.json中的元数据,分析Wikidata数据的更新频率、数据量变化趋势。