ACA_多语言核心论元标注数据库

数据集概述

本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。

文件详解

  • 数据库描述文档
  • 文件名称:Database_Description.docx
  • 文件格式:DOCX
  • 字段映射介绍:包含数据集编码方案、标注规则及整体说明的文档类文件
  • 俄语核心论元标注文件
  • 文件名称:ACA_rus.txt
  • 文件格式:TXT
  • 字段映射介绍:包含Clause_ID(从句ID)、File_ID(文件ID)、Trace_Back(回溯信息)、Context(上下文)、Translation(翻译)、Clause_Type(从句类型)、Clause_Polarity(从句极性)、Clause_TenseMood(从句时态语气)、Verb(动词)、A_Word(A论元词)、A_POS(A论元词性)、A_Subcategory(A论元子范畴)、A_Person(A论元人称)、A_Number(A论元数)、A_Semantics(A论语义)、A_Definiteness(A论元确定性)、A_Givenness(A论元已知性)、P_Word(P论元词)、P_POS(P论元词性)等标注字段
  • 英语核心论元标注文件
  • 文件名称:ACA_eng.txt
  • 文件格式:TXT
  • 字段映射介绍:英语及物从句核心论元标注文件,字段结构与俄语文件一致
  • 老挝语核心论元标注文件
  • 文件名称:ACA_lao.txt
  • 文件格式:TXT
  • 字段映射介绍:老挝语及物从句核心论元标注文件,字段结构与俄语文件一致

适用场景

  • 跨语言句法结构研究:分析英语、老挝语和俄语核心论元实现方式的共性与差异
  • 论元结构标注标准制定:基于编码方案研究多语言核心论元标注的统一标准
  • 计算语言学模型训练:为句法分析模型提供多语言标注语料库
  • 语言类型学研究:探索不同语言中核心论元的句法实现模式及语义特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.12 MiB
最后更新 2026年2月12日
创建于 2026年2月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。