数据集概述
本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。
文件详解
- 文件名称: Annotated database of deverbal nominalizations in Serbian.csv
- 文件格式: CSV
- 字段映射:
- source_URL: 语料库原句链接
- left_context: 动词“očekivati”前的句子上下文
- KWIC: 包含动词“očekivati”和派生名词的核心片段
- right_context: 动词“očekivati”后的句子上下文
- nominalization: 是否为动词派生名词(1=是,0=否)
- lemma: 派生名词的原型(主格单数)
- nominalisation_pattern: 派生名词的后缀类型(如-nje、-ba、0等)
- related_verb: 派生名词对应的基动词(不定式)
- unclear_verbal_base: 基动词是否模糊(1=是,0=否)
- perfective_aspect: 基动词是否为完成体(1=是,0=否)
- nominalisation_plural: 派生名词是否为复数(1=是,0=否)
- genitive_complement: 是否带有属格补语(1=是,0=否)
- 文件名称: Description_Annotated database of deverbal nominalizations in Serbian.docx.pdf
- 文件格式: PDF
- 内容: 数据集的详细说明文档,包括研究背景、标注流程及字段解释
数据来源
CLASSLA-web.sr语料库(Ljubešić et al. 2024)
适用场景
- 语言学研究: 分析塞尔维亚语动词派生名词的形态-句法特征及使用规律
- 自然语言处理: 为塞尔维亚语派生名词识别、句法分析模型提供训练数据
- 对比语言学: 比较英语与塞尔维亚语动词派生名词的语言特性差异
- 语料库语言学: 探索特定动词语境下派生名词的分布模式与使用频率