Wikidata_Dump_基于wdumps生成的RDF导出数据

数据集概述

本数据集是通过wdumps工具生成的Wikidata的RDF格式导出数据,包含实体、标签、描述、别名、声明等核心信息,用于支持语义网相关的数据分析和应用。数据集文件总数为4个,涵盖JSON、NT等格式,未包含训练/测试、原始/处理等数据拆分。

文件详解

  • info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录导出数据的元信息。
  • wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements等字段,定义导出数据的结构规范。
  • preview.nt
  • 文件格式:NT
  • 字段映射介绍:RDF格式的预览数据文件。
  • wdump-1954.nt.gz
  • 文件格式:GZ
  • 字段映射介绍:压缩后的RDF格式数据文件。

适用场景

  • 语义网数据分析: 用于研究和分析Wikidata的RDF数据结构和内容。
  • 数据挖掘与知识图谱构建: 基于导出的实体、标签、声明等信息构建知识图谱。
  • 数据集成与共享: 支持不同系统间的Wikidata数据集成和共享。
  • 工具开发与测试: 用于语义网相关工具的开发和测试。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。