数据集概述
本数据集是通过wdumper工具生成的Wikidata的RDF转储数据,包含实体、声明和三元组信息,以及相关的元数据文件。数据集共包含4个文件,涵盖JSON、NT和GZ等格式,提供了Wikidata数据的结构化和压缩存储形式。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段。
- preview.nt
- 文件格式:NT
- 内容介绍:Wikidata数据的预览NT文件,包含RDF三元组数据。
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含version、entities、samplingPercent、statements、sitelinks、labels、descriptions、aliases、languages、meta等字段,描述wdumper的配置信息。
- wdump-2821.nt.gz
- 文件格式:GZ
- 内容介绍:压缩的NT文件,包含Wikidata的RDF三元组数据。
适用场景
- 知识图谱构建: 用于构建和扩展知识图谱,提供结构化的实体和关系数据。
- 语义网研究: 支持语义网技术的研究和应用,如RDF数据处理和查询。
- 数据挖掘与分析: 用于挖掘Wikidata中的实体关系和知识模式。
- 工具开发测试: 作为wdumper工具生成数据的测试样本,验证工具的正确性和性能。