数据集概述
本数据集是通过wdumper工具生成的Wikidata人类实体RDF转储数据,包含4个文件,涵盖配置信息、预览数据及压缩数据,可用于Wikidata人类实体相关的知识库研究与数据处理场景。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录转储的基础元信息
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含version、entities、samplingPercent、statements、sitelinks、labels、descriptions、aliases、languages、meta等字段,定义转储的配置规范
- preview.nt
- 文件格式:NT
- 字段映射介绍:人类实体的RDF预览数据文件
- wdump-2929.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩格式的人类实体RDF转储数据文件
适用场景
- 知识库构建: 用于构建或补充包含人类实体信息的知识库系统
- 语义网研究: 基于RDF格式数据开展语义网相关技术研究与应用开发
- 数据挖掘分析: 针对Wikidata人类实体数据进行实体关系、属性特征等挖掘分析
- 工具测试验证: 作为wdumper工具或RDF数据处理工具的测试验证数据集