数据集概述
本数据集是使用wdumps工具生成的Wikidata RDF格式测试转储数据,包含4个文件,总三元组数量为38,实体数和陈述数均为0。数据以JSON、NT和压缩格式存储,涵盖转储元信息、规格配置、预览数据等内容,可用于测试Wikidata数据转储工具的功能与输出格式。
文件详解
- 元信息文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion(工具版本)、toolVersion(工具版本)、dumpDate(转储日期)、tripleCount(三元组数量)、entityCount(实体数量)、statementCount(陈述数量)等转储元数据字段
- 转储规格文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks(站点链接)、entities(实体)、labels(标签)、samplingPercent(采样百分比)、meta(元数据)、descriptions(描述)、version(版本)、aliases(别名)、statements(陈述)等转储配置字段
- 压缩数据文件
- 文件名称:wdump-2077.nt.gz
- 文件格式:GZ(压缩NT格式)
- 字段映射介绍:RDF格式的Wikidata测试数据压缩文件
- 预览数据文件
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:RDF格式的Wikidata测试数据预览文件
适用场景
- Wikidata转储工具测试: 验证wdumps工具生成RDF格式数据的功能正确性与输出格式规范性
- 知识图谱数据处理测试: 用于测试知识图谱系统对Wikidata RDF数据的读取、解析与存储能力
- 数据格式兼容性验证: 分析不同格式(JSON、NT、压缩格式)的Wikidata数据在下游应用中的兼容性
- 转储配置参数研究: 通过wdumper-spec.json文件研究Wikidata数据转储的配置项与参数设置逻辑