数据集概述
本数据集是由wdumps工具生成的韩语维基数据RDF转储,包含4个文件,涉及JSON、NT、GZ三种格式。数据涵盖维基数据的实体、标签、描述等元数据信息,但当前实体数、陈述数、三元组数均为0,可用于维基数据备份与分析的基础参考。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录转储工具版本、日期及数据统计信息。
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含labels、languages、meta、statements、sitelinks、version、entities、aliases、descriptions等键,定义维基数据转储的规范结构。
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:RDF三元组预览文件,用于展示维基数据的结构化数据格式。
- 文件名称:wdump-578.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩的RDF三元组文件,存储维基数据的核心数据内容。
适用场景
- 维基数据备份与存档:用于韩语维基数据的离线存储与备份。
- 知识图谱研究:分析维基数据的结构与内容,支持知识图谱构建与应用。
- 数据格式转换测试:验证RDF转储工具wdumps的输出格式与规范。
- 多语言数据研究:对比不同语言维基数据的结构差异,开展跨语言知识分析。