VeLeRo_Based_罗马尼亚语动词屈折词库数据

数据集概述

本数据集为VeLeRo,即标准罗马尼亚语的屈折动词词库,包含7297个动词的完整语音形式词形变化范式,提供词元级和词形单元级频率数据。数据集共10个文件,涵盖数据文件、文档、代码及元数据等类型,支持罗马尼亚语形态学研究与分析。

文件详解

  • 数据文件(CSV格式,共5个)
  • VeLeRo_forms.csv:记录动词词形信息,包含form_id(词形ID)、lexeme(词元)、cell(词形单元)、phon_form(语音形式)字段
  • VeLeRo_cells.csv:记录词形单元信息,包含cell_id(词形单元ID)、unimorph(形态标记)、frequency(频率)字段
  • VeLeRo_lexemes.csv:词元相关数据文件
  • VeLeRo_sounds.csv:语音相关数据文件
  • VeLeRo_features-values.csv:特征值映射数据文件
  • 文档文件(MD格式,共2个)
  • README.md:数据集说明文档,包含引用文献等信息
  • data_sheet.md:数据说明文档
  • 代码文件(PY格式,共1个)
  • gen-metadata.py:元数据生成脚本
  • 其他文件
  • LICENSE:许可文件
  • VeLeRo_package.json:包元数据文件

数据来源

论文“VeLeRo: an inflected verbal lexicon of standard Romanian and a quantitative analysis of morphological predictability”

适用场景

  • 罗马尼亚语形态学研究:分析动词屈折变化范式与形态标记规则
  • 语言资源开发:为罗马尼亚语自然语言处理工具提供动词词形变化数据支持
  • 频率语言学分析:基于词元级和词形单元级频率数据,研究罗马尼亚语动词使用规律
  • 语音学研究:利用语音形式数据开展罗马尼亚语动词语音特征分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 20.49 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。