数据集概述
本数据集为Pitjantjatjara/Yankunytjatjara语言的动词词库,包含动词形态、语音、词素等结构化信息,由墨尔本大学Sasha Wilmoth创建。数据涵盖动词形式表、语音表、词素表等11个文件,支持对该澳大利亚原住民语言动词系统的深入分析。
文件详解
- 数据文件(CSV格式,共7个)
py_v_forms.csv:动词形式表,字段包括form_id(形式ID)、lexeme(词素)、cell(语法单元)、phon_form(语音形式)、analysed_phon_form(分析后语音形式)、variants_tag(变体标签)
py_v_sounds.csv:语音表,字段包括sound_id(语音ID)、label(语音标签)、tier(层级),记录短元音、长元音等语音单位信息
py_v_graphemes.csv:字素表,未提供具体字段预览
py_v_cells.csv:语法单元表,未提供具体字段预览
py_v_features-values.csv:特征值表,未提供具体字段预览
py_v_lexemes.csv:词素表,未提供具体字段预览
py_v_tags.csv:标签表,未提供具体字段预览
- 文档文件(MD格式,共2个)
README.md:数据集说明文档,介绍文件组成及各CSV表字段
py_v_datasheet.md:数据集详情文档,包含数据构建、使用说明等详细信息
- 配置文件(YML/JSON格式,共2个)
paralex-infos.yml:配置文件,未提供具体内容
pitjantjatjara.package.json:包配置文件,未提供具体内容
数据来源
墨尔本大学Sasha Wilmoth
适用场景
- 澳大利亚原住民语言研究:分析Pitjantjatjara/Yankunytjatjara语言的动词形态、语音系统及语法结构
- 计算语言学应用:构建该语言的语音识别、词性标注等自然语言处理模型
- 语言教育资源开发:为语言教学提供结构化的动词词库和语音参考数据
- 语言多样性保护:记录和保存濒危原住民语言的动词系统信息,支持语言复兴研究