Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

数据集概述

本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。

文件详解

  • 文件名称:nerwip-4-data.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含408篇标注传记文本及相关数据
  • 文件名称:nerwip-3-data.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含历史版本250篇标注传记文本数据
  • 文件名称:nerwip-4-ner.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含NER工具所需的模型、词典等支持文件

数据来源

GitHub仓库https://github.com/CompNet/nerwip

适用场景

  • NER工具性能评估:用于对比不同命名实体识别工具在传记文本上的准确率、召回率等指标
  • 传记文本实体分析:研究传记类文本中关键实体的分布特征和标注规律
  • NLP模型训练:可作为命名实体识别任务的训练或测试数据集
  • 工具开发支持:为Nerwip工具提供基础语料和运行所需的模型文件
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月5日
创建于 2026年1月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。