数据集概述
本数据集是通过wdumps生成的Wikidata RDF转储数据,聚焦于化学化合物列表。包含元数据、规范配置、预览数据及压缩数据等4个文件,可用于获取Wikidata中化学化合物相关的结构化信息,支持数据检索与分析。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、languages、aliases、version、statements、entities、descriptions、samplingPercent、labels、meta等规范配置字段
- preview.nt
- 文件格式:NT
- 字段映射介绍:化学化合物列表的预览数据文件
- wdump-1473.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩格式的Wikidata转储数据文件
适用场景
- 化学信息检索: 用于查询Wikidata中化学化合物的结构化属性信息
- 语义网数据研究: 分析RDF格式的化学化合物数据结构与关联关系
- 数据集成应用: 作为外部数据源补充化学化合物相关的知识图谱内容
- 数据工具测试: 用于验证wdumps等数据导出工具的输出格式与内容完整性