数据集概述
该数据集是奥兰阿拉伯方言的形态标注数据集,含三万三千个单词,覆盖书面(约百分之十二)与口语(约百分之八十八)两类来源,书面涉及校园生活等主题,口语含故事等场景。每个单词经人工标注,含词性、词根等信息,标注遵循阿拉伯贝拉语料库指南并适配方言语境。
文件详解
该数据集由多个文件和目录组成,具体说明如下:
- 根目录文件:
- ReadMe.txt:说明文档,格式为TXT
- Morphology Annotation Guidelines.pdf:形态标注指南,格式为PDF
- Frequency distribution data/目录:
- MADORanFreqDist.csv:频率分布数据,格式为CSV,含Token(词汇)、Frequency(频率)字段
- MADOran Morphologically Annotated Dataset/目录:
- MADOran.tsv:形态标注数据集,格式为TSV,含ID、Sentno(句子编号)、Wordno(单词编号)、Word(单词)、Root(词根)、Pattern(词型)、en_gloss(英文释义)、fr_gloss(法文释义)等字段
- MADOran.csv:形态标注数据集,格式为CSV
- MADOran.json:形态标注数据集,格式为JSON
- MADOran.db:形态标注数据集,格式为DB
- Raw Data - Sentences/目录:
- MADOran_Sentences.tsv:原始句子数据,格式为TSV
- MADOran_Sentences.txt:原始句子数据,格式为TXT
适用场景
- 阿拉伯方言语言学研究:分析奥兰阿拉伯方言的形态结构与特征
- 自然语言处理模型训练:用于方言文本的词性标注、词根提取等任务
- 方言资源开发:支撑奥兰阿拉伯方言词典、语料库等资源构建
- 语言对比研究:对比奥兰方言与现代标准阿拉伯语的形态差异