奥兰阿拉伯方言形态标注数据集

数据集概述

该数据集是奥兰阿拉伯方言的形态标注数据集,含三万三千个单词,覆盖书面(约百分之十二)与口语(约百分之八十八)两类来源,书面涉及校园生活等主题,口语含故事等场景。每个单词经人工标注,含词性、词根等信息,标注遵循阿拉伯贝拉语料库指南并适配方言语境。

文件详解

该数据集由多个文件和目录组成,具体说明如下: - 根目录文件: - ReadMe.txt:说明文档,格式为TXT - Morphology Annotation Guidelines.pdf:形态标注指南,格式为PDF - Frequency distribution data/目录: - MADORanFreqDist.csv:频率分布数据,格式为CSV,含Token(词汇)、Frequency(频率)字段 - MADOran Morphologically Annotated Dataset/目录: - MADOran.tsv:形态标注数据集,格式为TSV,含ID、Sentno(句子编号)、Wordno(单词编号)、Word(单词)、Root(词根)、Pattern(词型)、en_gloss(英文释义)、fr_gloss(法文释义)等字段 - MADOran.csv:形态标注数据集,格式为CSV - MADOran.json:形态标注数据集,格式为JSON - MADOran.db:形态标注数据集,格式为DB - Raw Data - Sentences/目录: - MADOran_Sentences.tsv:原始句子数据,格式为TSV - MADOran_Sentences.txt:原始句子数据,格式为TXT

适用场景

  • 阿拉伯方言语言学研究:分析奥兰阿拉伯方言的形态结构与特征
  • 自然语言处理模型训练:用于方言文本的词性标注、词根提取等任务
  • 方言资源开发:支撑奥兰阿拉伯方言词典、语料库等资源构建
  • 语言对比研究:对比奥兰方言与现代标准阿拉伯语的形态差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.88 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。