数据集概述
本数据集是通过wdumps工具生成的Wikidata的RDF转储数据,包含4个文件,实体数、陈述数和三元组数均为0。文件类型涵盖JSON、NT和GZ格式,主要包含转储配置信息、元数据及预览数据,可用于了解Wikidata转储的结构和元信息。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段。
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:Wikidata转储的预览数据文件。
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含languages、sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements等配置字段。
- 文件名称:wdump-2056.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩的NT格式Wikidata转储数据文件。
适用场景
- 维基数据转储结构研究:分析Wikidata转储的文件结构和配置信息。
- 数据转储工具验证:验证wdumps工具生成的Wikidata转储数据的格式和元数据准确性。
- 元数据管理:用于管理和查看Wikidata转储的元数据信息,如转储日期、工具版本等。
- 数据格式转换参考:作为RDF转储数据格式转换的参考示例。