Tigrinya_Analogy_Test_词嵌入模型评估数据集

数据集概述

本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。

文件详解

  • 文件名称:TigrinyaAnalogyTest.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含提格利尼亚语类比测试数据,包含语义类比(如首都-国家、货币、家庭关系)和句法类比(如形容词转副词、反义词、比较级、时态变化、单复数)等九类测试小节,每个条目为类比问题形式(如“ኣስመራ: ኤርትራ as ፓሪስ: ?”)

适用场景

  • 词嵌入模型质量评估: 用于测试提格利尼亚语词嵌入模型在语义和句法类比任务上的准确性,验证模型性能。
  • 低资源语言NLP研究: 为提格利尼亚语等低资源语言的自然语言处理研究提供标准化评估基准。
  • 跨语言模型对比: 支持不同提格利尼亚语词嵌入模型(如word2vec、GloVe)的性能对比分析。
  • 语义与句法能力分析: 分析模型在特定语义领域(如家庭关系、地理知识)和句法结构(如时态、单复数)上的表现差异。
  • 模型优化方向探索: 根据测试结果识别模型在提格利尼亚语处理中的薄弱环节,指导模型改进。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.08 MiB
最后更新 2026年2月13日
创建于 2026年2月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。