数据工程_语义网数据处理数据

数据集概述

本数据集是通过wdumps工具生成的Wikidata RDF格式转储文件,包含实体、陈述及三元组相关元数据,共4个文件,覆盖JSON、压缩包、NT等格式,提供Wikidata数据的结构化存储与访问支持。

文件详解

  • 文件名称:info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
  • 文件名称:wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含labels、descriptions、version、entities、statements、meta、aliases、sitelinks等配置字段
  • 文件名称:wdump-240.nt.gz
  • 文件格式:GZ压缩包
  • 字段映射介绍:Wikidata RDF数据的NT格式压缩文件
  • 文件名称:preview.nt
  • 文件格式:NT
  • 字段映射介绍:Wikidata RDF数据的NT格式预览文件

数据来源

Wikidata

适用场景

  • 语义网数据研究:用于分析Wikidata的RDF数据结构及语义关系
  • 数据转储工具测试:验证wdumps工具生成RDF转储文件的完整性与准确性
  • 知识图谱构建:基于转储文件提取实体、属性及三元组信息,支持知识图谱搭建
  • 数据格式转换研究:对比不同格式(JSON、NT)下Wikidata数据的存储与访问效率
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2026年2月12日
创建于 2026年2月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。