数据集概述
本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。
文件详解
- 数据文件(CSV格式,共5个)
- parahungarian_cells.csv:包含cell_id、pos等字段,记录名词的形态句法单元格信息
- parahungarian_lexemes.csv:包含lexeme_id、label、pos字段,记录匈牙利名词词元信息
- parahungarian_sounds.csv:音频相关字段的名词数据文件(具体字段未完全展示)
- parahungarian_forms.csv:名词词形相关数据文件(具体字段未完全展示)
- parahungarian_features-values.csv:名词特征值映射数据文件(具体字段未完全展示)
- 说明文档(MD格式,共2个)
- README.md:数据集说明文档,介绍数据来源、格式标准及使用方法
- data_sheet.md:数据工作表,提供数据集详细描述
- 元数据文件(JSON格式)
- parahungarian.package.json:采用Frictionless标准的元数据文件,记录数据集元信息
- 配置文件(YML格式)
- paralex-infos.yml:Paralex标准相关配置信息
- 许可文件(无扩展名)
- LICENSE:数据集许可协议文件
数据来源
Unimorph Beniamine and Guzmán Naranjo (2022)
适用场景
- 语言学研究:分析匈牙利名词的形态句法特征、词形变化规律
- 自然语言处理:用于匈牙利语词形还原、词性标注等任务的模型训练与测试
- 语言资源建设:构建匈牙利语词汇知识库与范式词典
- 计算语言学:研究名词形态学的计算建模与分析方法