数据集概述
本数据集是使用wdumps工具生成的Wikidata测试RDF转储数据,包含实体数、陈述数、三元组数均为零,共4个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,主要用于验证Wikidata数据转储流程的有效性。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段
- 文件名称:wdump-1943.nt.gz
- 文件格式:GZ压缩的NT文件
- 字段映射介绍:压缩格式的N-Triples数据文件
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:N-Triples格式的预览数据文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements字段
数据来源
wdumps工具
适用场景
- Wikidata转储工具测试: 验证wdumps工具生成RDF转储文件的流程正确性与格式规范性
- 知识图谱数据处理测试: 用于测试RDF格式知识图谱数据的解析、存储与加载流程
- 数据压缩与解压测试: 针对gz压缩格式的NT文件进行压缩效率与解压兼容性验证
- 元数据结构验证: 基于info.json和wdumper-spec.json的字段结构,验证Wikidata转储元数据的标准化程度