数据集概述
本数据集为VeLeSpa,是半岛西班牙语的动词词库,包含六百五十五三个动词的全部六十三个音系形式词形变化范式,以及对应的词目级和词形级频率数据。数据集共包含十个文件,涵盖数据表格、说明文档、代码文件等类型。
文件详解
- 数据文件(CSV格式)
- 文件名称:VeLeSpa_cells.csv、VeLeSpa_features-values.csv、VeLeSpa_forms.csv、VeLeSpa_sounds.csv、VeLeSpa_lexemes.csv
- 文件格式:CSV
- 字段映射介绍:包含动词词形单元ID、形态特征值、具体词形、音系信息、词目信息等核心数据,部分表格含频率统计字段
- 文档文件(MD格式)
- 文件名称:README.md、data_sheet.md、LICENSE
- 文件格式:MD、无扩展名
- 内容介绍:提供数据集说明、数据详情、使用许可等信息
- 代码文件(PY格式)
- 文件名称:gen-metadata.py
- 文件格式:PY
- 内容介绍:用于生成元数据的脚本文件
- 配置文件(JSON格式)
- 文件名称:VeLeSpa_package.json
- 文件格式:JSON
- 内容介绍:数据集相关的配置信息文件
数据来源
论文“VeLeSpa: An inflected verbal lexicon of Peninsular Spanish and a quantitative analysis of paradigmatic predictability”
适用场景
- 西班牙语语言学研究: 分析动词的形态变化规律、音系特征及使用频率
- 自然语言处理模型训练: 为西班牙语动词形态分析、词形还原等任务提供标注数据
- 语言教育资源开发: 支持西班牙语动词教学材料的设计与开发
- 计算语言学实验: 用于验证动词词形变化预测模型的性能
- 语言资源库建设: 作为西班牙语语言资源的补充,丰富多语言词库体系