数据集概述
本数据集是Wikidata的RDF格式数据转储,通过wdumps工具生成,聚焦kr语言相关的业务实体数据。包含4个文件,涉及实体、语句、三元组等统计信息及配置文件,为知识图谱研究提供结构化数据支持。
文件详解
- 配置与元数据文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含languages、sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements等配置字段
- 数据文件
- 文件名称:wdump-2067.nt.gz
- 文件格式:GZ压缩的NT文件
- 字段映射介绍:RDF三元组数据压缩包
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:RDF三元组预览数据
数据来源
Wikidata(通过wdumps工具生成)
适用场景
- 知识图谱构建:用于构建kr语言业务领域的知识图谱,整合实体与属性关系
- 语义网研究:分析RDF三元组结构,探索语义网数据模型应用
- 数据转储工具测试:验证wdumps工具生成数据的格式与完整性
- 多语言数据研究:聚焦kr语言实体数据,支持跨语言知识融合分析