数据集概述
本数据集是通过wdumps工具生成的Wikidata的RDF格式Dump数据,包含4个文件,涵盖配置信息、规格说明、压缩数据文件和预览文件,可用于Wikidata知识库相关的数据存储与处理场景。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、languages、aliases、version、statements、entities、descriptions、samplingPercent、labels、meta字段
- wdump-1516.nt.gz
- 文件格式:GZ
- 内容说明:压缩格式的N-Triples数据文件
- preview.nt
- 文件格式:NT
- 内容说明:N-Triples格式的预览数据文件
适用场景
- Wikidata知识库数据存储: 用于Wikidata数据的备份与存储
- 语义网数据处理: 基于RDF格式的Wikidata数据进行语义网相关的数据分析与应用开发
- 数据工具测试: 作为测试数据验证wdumps等数据处理工具的功能与性能
- 知识库研究: 支持对Wikidata知识库结构与内容的研究分析