数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF转储数据,包含4个文件,涵盖信息说明、转储规范、预览数据等内容,可用于Wikidata知识图谱相关的数据处理与分析。
文件详解
- 信息说明文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录转储的基础信息
- 转储规范文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、version、aliases、entities、statements、labels、meta、descriptions等字段,定义转储的具体规范
- 压缩数据文件
- 文件名称:wdump-39.nt.gz
- 文件格式:GZ(压缩格式)
- 字段映射介绍:压缩的N-Triples格式RDF数据文件
- 预览数据文件
- 文件名称:preview.nt
- 文件格式:NT(N-Triples)
- 字段映射介绍:未压缩的N-Triples格式预览数据文件
适用场景
- 知识图谱数据研究:用于分析Wikidata知识图谱的结构与内容
- 数据转储工具验证:验证wdumps工具生成RDF转储数据的规范性与完整性
- 语义网数据处理:作为RDF格式数据样本,支持语义网相关技术的开发与测试
- 数据规范参考:参考wdumper-spec.json中的字段定义,指导Wikidata数据的抽取与处理