数据集概述
本数据集是由wdumps工具生成的Wikidata人类聚居地RDF转储数据,包含565490个实体、3852167条陈述和9179041个三元组,共4个文件,涵盖实体元数据、转储配置及三元组数据等内容。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录转储元数据信息。
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含labels、version、statements、samplingPercent、aliases、meta、sitelinks、descriptions、languages、entities等字段,记录转储配置信息。
- 文件名称:wdump-1607.nt.gz
- 文件格式:GZ压缩文件
- 字段映射介绍:压缩的N-Triples格式文件,存储RDF三元组数据。
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:N-Triples格式文件,为RDF数据预览文件。
数据来源
Wikidata
适用场景
- 知识图谱构建: 用于构建人类聚居地相关的知识图谱,整合多源数据。
- 语义网研究: 基于RDF三元组数据开展语义网技术研究与应用开发。
- 地理信息分析: 分析人类聚居地的地理分布特征及相关属性。
- 数据挖掘与知识发现: 挖掘人类聚居地实体间的关联关系,支持知识发现应用。