多语言维基百科命名实体识别数据集

多语言维基百科命名实体识别数据集 数据来源:互联网公开数据 标签:多语言,维基百科,命名实体识别,PER,LOC,ORG,MISC,自然语言处理,机器学习

数据概述: 本数据集是基于多语言维基百科内容的命名实体识别(NER)数据集,经过处理后包含218种语言的数据。数据集由GitHub用户afshinrahimi提供,数据下载地址为https://www.amazon.com/clouddrive/share/d3KGCRCIYwhKJF0H3eWA26hjg2ZCRhjpEQtDL70FSBN。数据集标注了以下四种实体类型:人名(PER)、地名(LOC)、组织名(ORG)及其他杂项(MISC),适用于多种语言的NER任务。

数据用途概述: 该数据集适用于多语言命名实体识别研究、自然语言处理任务、机器学习模型训练和评估等多个场景。研究人员可以利用此数据集进行跨语言NER模型的研究和开发;开发人员可借助数据提升其产品的多语言支持能力;教育机构可以使用数据集进行相关的教学和培训,帮助学习者掌握多语言文本处理技术。

数据集说明原文引用: 本数据集是Massively Multilingual Transfer for NER(https://arxiv.org/abs/1902.00193)研究的一部分,旨在支持多语言NER任务的广泛应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.25 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。