Wikidata_Dump_test_基于wdumps工具的RDF转储测试数据

数据集概述

本数据集是使用wdumps工具生成的Wikidata测试RDF转储数据,包含实体数、陈述数、三元组数均为零,共4个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,主要用于验证Wikidata数据转储流程的有效性。

文件详解

  • 文件名称:info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段
  • 文件名称:wdump-1943.nt.gz
  • 文件格式:GZ压缩的NT文件
  • 字段映射介绍:压缩格式的N-Triples数据文件
  • 文件名称:preview.nt
  • 文件格式:NT
  • 字段映射介绍:N-Triples格式的预览数据文件
  • 文件名称:wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements字段

数据来源

wdumps工具

适用场景

  • Wikidata转储工具测试: 验证wdumps工具生成RDF转储文件的流程正确性与格式规范性
  • 知识图谱数据处理测试: 用于测试RDF格式知识图谱数据的解析、存储与加载流程
  • 数据压缩与解压测试: 针对gz压缩格式的NT文件进行压缩效率与解压兼容性验证
  • 元数据结构验证: 基于info.json和wdumper-spec.json的字段结构,验证Wikidata转储元数据的标准化程度
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 28.56 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。