数据集概述
本数据集是通过wdumps工具生成的维基数据(Wikidata)RDF转储,核心内容为维基数据中的演员及其参演电影的关联信息。数据集包含4个文件,涵盖数据规范、元信息、RDF数据压缩包及预览文件,为相关领域研究提供结构化参考。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion(工具版本)、toolVersion(工具版本)、dumpDate(转储日期)、tripleCount(三元组数量)、entityCount(实体数量)、statementCount(陈述数量)等元数据字段
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含meta(元数据)、sitelinks(站点链接)、descriptions(描述)、labels(标签)、aliases(别名)、statements(陈述)、entities(实体)、version(版本)、samplingPercent(采样百分比)等数据规范字段
- wdump-1594.nt.gz
- 文件格式:GZ压缩包(包含NT格式文件)
- 字段映射介绍:维基数据演员及其电影关系的RDF三元组数据压缩文件
- preview.nt
- 文件格式:NT
- 字段映射介绍:维基数据演员及其电影关系的RDF三元组数据预览文件
适用场景
- 影视行业研究: 分析演员与电影的关联关系,支撑影视行业网络结构研究
- 语义网技术应用: 基于RDF格式数据,开展语义网相关技术的应用与验证
- 知识图谱构建: 为影视领域知识图谱的构建提供结构化数据源
- 数据挖掘分析: 通过演员与电影的关联数据,挖掘影视领域潜在的关系模式