开源对话式大语言模型西班牙语单词知识评估数据

数据集概述

本数据集包含一百个西班牙语词汇的开源对话式大语言模型认知评估数据,涵盖词汇使用频率、模型对词汇的认知情况、定义、例句及人工与自动验证结果。数据旨在评估不同开源大语言模型对西班牙语词汇的掌握程度,共包含十五个文件。

文件详解

  • 词汇频率文件
  • 文件名称:Frequencies_100_words_CREA.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含一百个西班牙语词汇在西班牙语中的使用频率信息。
  • 模型响应文件
  • 文件名称:遵循llm_*.xlsx模式(例如:llm_bloomz-7b1-mt-sft-chat_defaultbits.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含模型对词汇的认知情况、定义、两个使用例句,以及西班牙语专家的人工验证结果;涉及的模型包括Llama-2系列、Mistral系列、Mixtral系列、Gemma系列、SOLAR系列、Yi系列、Bloomz系列、FLOR系列、Bertin系列等。
  • 自动验证文件
  • 文件名称:遵循validation_*.xlsx模式
  • 文件格式:XLSX
  • 字段映射介绍:包含GPT-3.5和GPT-4对模型响应结果的自动验证数据。

适用场景

  • 大语言模型多语言能力评估: 用于分析不同开源对话式大语言模型对西班牙语词汇的认知水平、定义准确性及例句合理性。
  • 自然语言处理模型优化: 基于模型响应的人工与自动验证结果,为西班牙语大语言模型的训练与优化提供参考。
  • 词汇语义研究: 结合词汇使用频率数据,探究模型对不同频率西班牙语词汇的处理差异。
  • 多语言教育资源开发: 利用模型生成的词汇定义与例句,辅助西班牙语学习资源的开发与完善。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.31 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。