Wikidata_Based清洗RDF转储数据

数据集概述

本数据集是通过wdumps工具生成的Wikidata清洗RDF转储数据,包含实体、陈述和三元组计数均为零的RDF转储文件及相关配置、信息文件,共四个文件,支持对Wikidata数据处理流程的参考。

文件详解

  • 配置与信息文件
  • 文件名称:info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等工具版本、转储日期及数据计数信息
  • 文件名称:wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含meta、samplingPercent、statements、labels、aliases、sitelinks、entities、descriptions、version等转储配置信息
  • 数据文件
  • 文件名称:wdump-1782.nt.gz
  • 文件格式:GZ压缩文件
  • 字段映射介绍:Wikidata清洗后的RDF转储压缩文件
  • 文件名称:preview.nt
  • 文件格式:NT
  • 字段映射介绍:Wikidata清洗RDF转储的预览文件

适用场景

  • Wikidata数据处理流程研究: 用于分析wdumps工具生成Wikidata清洗RDF转储的配置与流程
  • 数据清洗工具验证: 参考info.json和wdumper-spec.json验证数据清洗工具的版本及配置合理性
  • RDF数据格式研究: 基于nt格式文件研究Wikidata RDF数据的存储与组织形式
  • 数据转储元数据分析: 通过info.json中的dumpDate、计数信息分析Wikidata转储的元数据特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 414.8 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。