VeLeSpa_Spanish_西班牙语动词词库数据

数据集概述

本数据集为VeLeSpa,是半岛西班牙语的动词词库,包含六百五十五三个动词的全部六十三个音系形式词形变化范式,以及对应的词目级和词形级频率数据。数据集共包含十个文件,涵盖数据表格、说明文档、代码文件等类型。

文件详解

  • 数据文件(CSV格式)
  • 文件名称:VeLeSpa_cells.csv、VeLeSpa_features-values.csv、VeLeSpa_forms.csv、VeLeSpa_sounds.csv、VeLeSpa_lexemes.csv
  • 文件格式:CSV
  • 字段映射介绍:包含动词词形单元ID、形态特征值、具体词形、音系信息、词目信息等核心数据,部分表格含频率统计字段
  • 文档文件(MD格式)
  • 文件名称:README.md、data_sheet.md、LICENSE
  • 文件格式:MD、无扩展名
  • 内容介绍:提供数据集说明、数据详情、使用许可等信息
  • 代码文件(PY格式)
  • 文件名称:gen-metadata.py
  • 文件格式:PY
  • 内容介绍:用于生成元数据的脚本文件
  • 配置文件(JSON格式)
  • 文件名称:VeLeSpa_package.json
  • 文件格式:JSON
  • 内容介绍:数据集相关的配置信息文件

数据来源

论文“VeLeSpa: An inflected verbal lexicon of Peninsular Spanish and a quantitative analysis of paradigmatic predictability”

适用场景

  • 西班牙语语言学研究: 分析动词的形态变化规律、音系特征及使用频率
  • 自然语言处理模型训练: 为西班牙语动词形态分析、词形还原等任务提供标注数据
  • 语言教育资源开发: 支持西班牙语动词教学材料的设计与开发
  • 计算语言学实验: 用于验证动词词形变化预测模型的性能
  • 语言资源库建设: 作为西班牙语语言资源的补充,丰富多语言词库体系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 32.57 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。