数据集概述
本数据集为基于Wikidata 2017年6月13日快照生成的实体嵌入模型,通过CBOW算法训练得到。模型使用Wikidata的三元组关系数据构建训练语料,包含实体和属性的向量表示,可用于知识图谱相关的语义分析任务。
文件详解
- 文件名称:wikidata-20170613-truthy-BETA-cbow-size=100-window=1-min_count=20-iter=25.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含Gensim训练的Word2Vec模型文件,模型参数为向量维度100、窗口大小1、最小词频20、迭代次数25;模型基于Wikidata三元组(实体Qxx、属性Pxx、实体Qxx)构建的三元组语料训练,输出实体的向量表示。
数据来源
Wikimedia dumps(https://dumps.wikimedia.org/wikidatawiki/entities/)
适用场景
- 知识图谱语义分析: 利用实体嵌入向量分析Wikidata中实体的语义关联与相似性。
- 知识表示学习研究: 作为CBOW算法在知识图谱嵌入任务中的实例,用于模型对比与优化。
- 实体链接任务: 辅助文本中的实体与Wikidata实体的匹配与链接。
- 知识图谱补全: 基于实体嵌入预测Wikidata中缺失的实体关系。