数据集概述
本数据集为符合Paralex标准的Kasem名词数据集,基于Niggli and Niggli (2007)的研究并经Guzmán Naranjo (2019)人工修正,以关系型CSV表格结构呈现,包含发音、词素、形态等结构化信息,共10个文件,支持语言学范式词典研究。
文件详解
- 文档类文件
- 文件名称:README.md、LICENSE、data_sheet.md
- 文件格式:MD
- 字段映射介绍:包含数据集说明、引用信息、许可协议及数据详情
- 数据类文件
- 文件名称:parakasem_sounds.csv
- 文件格式:CSV
- 字段映射介绍:包含sound_id(发音ID)、cons(辅音标识)、son(响音标识)、syl(音节标识)等发音特征字段
- 文件名称:parakasem_lexemes.csv
- 文件格式:CSV
- 字段映射介绍:包含lexeme_id(词素ID)及Kasem名词词素
- 文件名称:kasem_raw.csv
- 文件格式:CSV
- 字段映射介绍:原始Kasem名词数据
- 文件名称:parakasem_features-values.csv
- 文件格式:CSV
- 字段映射介绍:特征值映射数据
- 文件名称:parakasem_forms.csv
- 文件格式:CSV
- 字段映射介绍:形态形式数据
- 文件名称:parakasem_cells.csv
- 文件格式:CSV
- 字段映射介绍:单元格数据
- 其他文件
- 文件名称:parakasem.package.json
- 文件格式:JSON
- 字段映射介绍:包含数据集元数据
数据来源
Guzmán Naranjo, Matías. 2019. Analogical Classification in Formal Grammar. Language Science Press, Berlin. doi:10.5281/zenodo.3191825.
适用场景
- 语言学研究: 用于分析Kasem语言的名词形态、发音特征及词素结构
- 语言数据标准化研究: 基于Paralex标准的范式词典结构分析与应用
- 计算语言学: 支持Kasem语言的自然语言处理模型训练与验证
- 语言资源建设: 为非洲语言资源库补充结构化的Kasem名词数据