Wikidata_TextRobustness_RDF转储_英文数据集

数据集概述

本数据集是通过wdumps工具生成的Wikidata英文RDF转储,包含4个文件,覆盖JSON、GZ压缩、NT格式。数据聚焦于文本鲁棒性研究场景,提供Wikidata实体、语句等相关数据的结构化记录,支持文本处理领域的鲁棒性分析与验证。

文件详解

  • info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录转储的基础元信息
  • wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含statements、descriptions、entities、languages、sitelinks、labels、version、meta、aliases等键,定义转储的结构规范
  • wdump-989.nt.gz
  • 文件格式:GZ(压缩包)
  • 内容说明:压缩格式的NT文件,存储Wikidata的RDF三元组数据
  • preview.nt
  • 文件格式:NT
  • 内容说明:未压缩的NT格式预览文件,包含Wikidata的RDF三元组示例数据

数据来源

wdumps工具生成的Wikidata转储

适用场景

  • 文本鲁棒性研究:用于测试文本处理模型在Wikidata结构化数据上的鲁棒性表现
  • 知识图谱数据处理:支持RDF格式数据的解析、存储与应用研究
  • 自然语言处理模型训练:为文本相关模型提供Wikidata英文语料的结构化输入
  • 数据格式转换验证:用于验证不同格式(RDF/JSON/NT)数据的转换准确性与兼容性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。