Parahungarian_Based_匈牙利名词范式词典数据集

数据集概述

本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。

文件详解

  • 数据文件(CSV格式,共5个)
  • parahungarian_cells.csv:包含cell_id、pos等字段,记录名词的形态句法单元格信息
  • parahungarian_lexemes.csv:包含lexeme_id、label、pos字段,记录匈牙利名词词元信息
  • parahungarian_sounds.csv:音频相关字段的名词数据文件(具体字段未完全展示)
  • parahungarian_forms.csv:名词词形相关数据文件(具体字段未完全展示)
  • parahungarian_features-values.csv:名词特征值映射数据文件(具体字段未完全展示)
  • 说明文档(MD格式,共2个)
  • README.md:数据集说明文档,介绍数据来源、格式标准及使用方法
  • data_sheet.md:数据工作表,提供数据集详细描述
  • 元数据文件(JSON格式)
  • parahungarian.package.json:采用Frictionless标准的元数据文件,记录数据集元信息
  • 配置文件(YML格式)
  • paralex-infos.yml:Paralex标准相关配置信息
  • 许可文件(无扩展名)
  • LICENSE:数据集许可协议文件

数据来源

Unimorph Beniamine and Guzmán Naranjo (2022)

适用场景

  • 语言学研究:分析匈牙利名词的形态句法特征、词形变化规律
  • 自然语言处理:用于匈牙利语词形还原、词性标注等任务的模型训练与测试
  • 语言资源建设:构建匈牙利语词汇知识库与范式词典
  • 计算语言学:研究名词形态学的计算建模与分析方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 27.26 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。