数据集概述
本数据集是通过wdumper工具生成的Wikidata RDF转储,包含政治家、企业家、商人三类实体的结构化数据,涵盖实体信息、陈述及三元组关系,可用于知识图谱构建与语义分析。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等数据集元信息字段
- preview.nt
- 文件格式:NT
- 字段映射介绍:RDF三元组预览文件,记录实体间的语义关系数据
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含version、entities、samplingPercent、statements、sitelinks、labels、descriptions、aliases、languages、meta等转储配置字段
- wdump-2607.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩的RDF三元组主数据文件,存储完整的实体关系数据
数据来源
Wikidata(通过wdumper工具生成)
适用场景
- 知识图谱构建: 用于构建政治家、企业家、商人领域的结构化知识网络
- 语义关系分析: 基于三元组数据研究实体间的关联模式
- 人物属性挖掘: 提取实体的标签、描述、别名等属性信息
- 知识工程研究: 作为语义网领域的基础数据支撑相关算法开发