数据集概述
本数据集为VeLeRo,即标准罗马尼亚语的屈折动词词库,包含7297个动词的完整语音形式词形变化范式,提供词元级和词形单元级频率数据。数据集共10个文件,涵盖数据文件、文档、代码及元数据等类型,支持罗马尼亚语形态学研究与分析。
文件详解
- 数据文件(CSV格式,共5个)
- VeLeRo_forms.csv:记录动词词形信息,包含form_id(词形ID)、lexeme(词元)、cell(词形单元)、phon_form(语音形式)字段
- VeLeRo_cells.csv:记录词形单元信息,包含cell_id(词形单元ID)、unimorph(形态标记)、frequency(频率)字段
- VeLeRo_lexemes.csv:词元相关数据文件
- VeLeRo_sounds.csv:语音相关数据文件
- VeLeRo_features-values.csv:特征值映射数据文件
- 文档文件(MD格式,共2个)
- README.md:数据集说明文档,包含引用文献等信息
- data_sheet.md:数据说明文档
- 代码文件(PY格式,共1个)
- gen-metadata.py:元数据生成脚本
- 其他文件
- LICENSE:许可文件
- VeLeRo_package.json:包元数据文件
数据来源
论文“VeLeRo: an inflected verbal lexicon of standard Romanian and a quantitative analysis of morphological predictability”
适用场景
- 罗马尼亚语形态学研究:分析动词屈折变化范式与形态标记规则
- 语言资源开发:为罗马尼亚语自然语言处理工具提供动词词形变化数据支持
- 频率语言学分析:基于词元级和词形单元级频率数据,研究罗马尼亚语动词使用规律
- 语音学研究:利用语音形式数据开展罗马尼亚语动词语音特征分析