奥克语标注语料库

数据集概述

该数据集为奥克语标注语料库,包含经人工标注词性和词元的奥克语文本,共28篇文档、12425个词元,标注流程详见指定学术文章,为奥克语自然语言处理研究提供基础数据。

文件详解

  • 文件名称: CorpusRestaureOccitan.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含采用TSV CoNLL-U格式存储的奥克语标注文本,标注内容涵盖词性、词元等语言学信息,无训练/测试、数据/标签、原始/处理数据的拆分结构。

数据来源

RESTAURE项目(法国ANR资助)

适用场景

  • 奥克语自然语言处理研究: 用于词性标注、词元分析等基础语言学任务模型训练与验证
  • 濒危语言资源建设: 支持奥克语语言资源的数字化保存与开发
  • 语言学研究: 为奥克语语法特征、词汇使用规律分析提供实证数据
  • 语料库语言学方法应用: 可作为小语种语料库标注与处理的案例参考
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.09 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。