AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

数据集概述

本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。

文件详解

  • 文件名称:AnCora Catalan 2.0.0.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含加泰罗尼亚语语料库数据,标注内容涵盖词元、词性、句法成分、论元结构、动词语义类、名词WordNet关联、命名实体及共指关系等多层面信息(具体字段需解压后查看原始文件结构)。

数据来源

AnCora-corpus

适用场景

  • 自然语言处理模型训练: 用于加泰罗尼亚语词性标注、句法分析、命名实体识别等任务的模型训练与验证。
  • 语义分析研究: 基于论元结构、题元角色及动词语义类标注,开展语义角色标注与语义理解研究。
  • 语料库语言学分析: 分析加泰罗尼亚语新闻文本的句法特征、词汇分布及语言使用规律。
  • 多语言处理资源建设: 为加泰罗尼亚语在多语言自然语言处理系统中的应用提供标注数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 11.19 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。