Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集

数据集概述

本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。

文件详解

  • 文件名称:dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含阿拉伯语疾病命名实体识别相关数据,涵盖IO、IOE、IOB、BIES、IOBES、IE、BI七种标注方案的标注结果,以及每条记录对应的词性标签、停用词标识、地名词典匹配、词汇标记、定冠词存在性五种语言学特征。

数据来源

论文“An Arabic Dataset for Disease Named Entity Recognition with Multi-Annotation Schemes”

适用场景

  • 阿拉伯语疾病命名实体识别模型训练: 用于开发和优化针对阿拉伯语文本的疾病实体识别算法。
  • 多标注方案对比研究: 分析不同标注方案(如IO、IOB、IOBES等)对阿拉伯语NER模型性能的影响。
  • 语言学特征对NER的影响分析: 探究词性、停用词等特征在阿拉伯语疾病实体识别中的作用。
  • 阿拉伯语NLP资源补充: 为阿拉伯语自然语言处理领域提供高质量的标注数据集,推动相关研究发展。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.75 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。