数据集概述
本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。
文件详解
- 数据库描述文档
- 文件名称:Database_Description.docx
- 文件格式:DOCX
- 字段映射介绍:包含数据集编码方案、标注规则及整体说明的文档类文件
- 俄语核心论元标注文件
- 文件名称:ACA_rus.txt
- 文件格式:TXT
- 字段映射介绍:包含Clause_ID(从句ID)、File_ID(文件ID)、Trace_Back(回溯信息)、Context(上下文)、Translation(翻译)、Clause_Type(从句类型)、Clause_Polarity(从句极性)、Clause_TenseMood(从句时态语气)、Verb(动词)、A_Word(A论元词)、A_POS(A论元词性)、A_Subcategory(A论元子范畴)、A_Person(A论元人称)、A_Number(A论元数)、A_Semantics(A论语义)、A_Definiteness(A论元确定性)、A_Givenness(A论元已知性)、P_Word(P论元词)、P_POS(P论元词性)等标注字段
- 英语核心论元标注文件
- 文件名称:ACA_eng.txt
- 文件格式:TXT
- 字段映射介绍:英语及物从句核心论元标注文件,字段结构与俄语文件一致
- 老挝语核心论元标注文件
- 文件名称:ACA_lao.txt
- 文件格式:TXT
- 字段映射介绍:老挝语及物从句核心论元标注文件,字段结构与俄语文件一致
适用场景
- 跨语言句法结构研究:分析英语、老挝语和俄语核心论元实现方式的共性与差异
- 论元结构标注标准制定:基于编码方案研究多语言核心论元标注的统一标准
- 计算语言学模型训练:为句法分析模型提供多语言标注语料库
- 语言类型学研究:探索不同语言中核心论元的句法实现模式及语义特征