数据集

奥兰阿拉伯方言形态标注数据集

数据集概述

该数据集是奥兰阿拉伯方言的形态标注数据集，含三万三千个单词，覆盖书面（约百分之十二）与口语（约百分之八十八）两类来源，书面涉及校园生活等主题，口语含故事等场景。每个单词经人工标注，含词性、词根等信息，标注遵循阿拉伯贝拉语料库指南并适配方言语境。

文件详解

该数据集由多个文件和目录组成，具体说明如下： - 根目录文件： - ReadMe.txt：说明文档，格式为TXT - Morphology Annotation Guidelines.pdf：形态标注指南，格式为PDF - Frequency distribution data/目录： - MADORanFreqDist.csv：频率分布数据，格式为CSV，含Token（词汇）、Frequency（频率）字段 - MADOran Morphologically Annotated Dataset/目录： - MADOran.tsv：形态标注数据集，格式为TSV，含ID、Sentno（句子编号）、Wordno（单词编号）、Word（单词）、Root（词根）、Pattern（词型）、en_gloss（英文释义）、fr_gloss（法文释义）等字段 - MADOran.csv：形态标注数据集，格式为CSV - MADOran.json：形态标注数据集，格式为JSON - MADOran.db：形态标注数据集，格式为DB - Raw Data - Sentences/目录： - MADOran_Sentences.tsv：原始句子数据，格式为TSV - MADOran_Sentences.txt：原始句子数据，格式为TXT

适用场景

阿拉伯方言语言学研究：分析奥兰阿拉伯方言的形态结构与特征
自然语言处理模型训练：用于方言文本的词性标注、词根提取等任务
方言资源开发：支撑奥兰阿拉伯方言词典、语料库等资源构建
语言对比研究：对比奥兰方言与现代标准阿拉伯语的形态差异

数据与资源

pgr766jbhp-2.zipZIP
6.88 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	6.88 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。