Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集

本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词，由两位独立标注者采用IO方案手动标注，标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征，填补了阿拉伯语多标注方案研究的空白。

文件名称：dataset.zip
文件格式：ZIP
字段映射介绍：压缩包内包含阿拉伯语疾病命名实体识别相关数据，涵盖IO、IOE、IOB、BIES、IOBES、IE、BI七种标注方案的标注结果，以及每条记录对应的词性标签、停用词标识、地名词典匹配、词汇标记、定冠词存在性五种语言学特征。

论文“An Arabic Dataset for Disease Named Entity Recognition with Multi-Annotation Schemes”

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	2.75 MiB
最后更新	2026年1月22日
创建于	2026年1月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。