ParaKasem_Paralex兼容_Kasem名词数据集

数据集概述

本数据集为符合Paralex标准的Kasem名词数据集,基于Niggli and Niggli (2007)的研究并经Guzmán Naranjo (2019)人工修正,以关系型CSV表格结构呈现,包含发音、词素、形态等结构化信息,共10个文件,支持语言学范式词典研究。

文件详解

  • 文档类文件
  • 文件名称:README.md、LICENSE、data_sheet.md
  • 文件格式:MD
  • 字段映射介绍:包含数据集说明、引用信息、许可协议及数据详情
  • 数据类文件
  • 文件名称:parakasem_sounds.csv
  • 文件格式:CSV
  • 字段映射介绍:包含sound_id(发音ID)、cons(辅音标识)、son(响音标识)、syl(音节标识)等发音特征字段
  • 文件名称:parakasem_lexemes.csv
  • 文件格式:CSV
  • 字段映射介绍:包含lexeme_id(词素ID)及Kasem名词词素
  • 文件名称:kasem_raw.csv
  • 文件格式:CSV
  • 字段映射介绍:原始Kasem名词数据
  • 文件名称:parakasem_features-values.csv
  • 文件格式:CSV
  • 字段映射介绍:特征值映射数据
  • 文件名称:parakasem_forms.csv
  • 文件格式:CSV
  • 字段映射介绍:形态形式数据
  • 文件名称:parakasem_cells.csv
  • 文件格式:CSV
  • 字段映射介绍:单元格数据
  • 其他文件
  • 文件名称:parakasem.package.json
  • 文件格式:JSON
  • 字段映射介绍:包含数据集元数据

数据来源

Guzmán Naranjo, Matías. 2019. Analogical Classification in Formal Grammar. Language Science Press, Berlin. doi:10.5281/zenodo.3191825.

适用场景

  • 语言学研究: 用于分析Kasem语言的名词形态、发音特征及词素结构
  • 语言数据标准化研究: 基于Paralex标准的范式词典结构分析与应用
  • 计算语言学: 支持Kasem语言的自然语言处理模型训练与验证
  • 语言资源建设: 为非洲语言资源库补充结构化的Kasem名词数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.39 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。