数据集概述
该数据集基于塞尔维亚网络语料库CLASSLA-web.sr提取的四千一百三十二条语料行,对塞尔维亚语中的动词性名物化进行标注,包含六十个本土-nje名物化和二十个拉丁语源-cija名物化,形成特定配对,用于研究其形态句法特征。
文件详解
- 文件名称: Description_Annotated database of nominalization pairs in Serbian.pdf
- 文件格式: PDF
- 内容: 数据集的详细说明文档,包含研究背景、数据选择流程、标注标准及列说明等信息
- 文件名称: Nominalization_pairs_Serbian.csv
- 文件格式: CSV
- 字段映射:
- nominalization_type: 名物化类型(如-nje.IPFV、-nje.PFV等)
- root: 配对名物化共享的词根
- nominalization: 名物化词形
- concordance: 名物化出现的语料行
- sentence: 是否为完整句子(1为是,0为否)
- plural: 是否为复数形式(1为是,0为否)
- genitive: 是否存在属格补语(1为是,0为否)
- possessive: 是否存在所有格(1为是,0为否)
- clausal_complement: 是否存在从句补语(1为是,0为否)
- free_relative_complement: 是否存在自由关系从句补语(1为是,0为否)
数据来源
塞尔维亚网络语料库CLASSLA-web.sr
适用场景
- 语言学研究: 分析塞尔维亚语动词性名物化的形态句法特征
- 对比语言学: 比较不同类型名物化(如-nje与-cija)的语法表现差异
- 自然语言处理: 为塞尔维亚语名物化相关的句法分析模型提供标注数据
- 语料库语言学: 探究名物化在真实语料中的使用模式与频率特征