Biografischportaal_nl_荷兰传记文本命名实体识别数据集

数据集概述

本数据集用于荷兰传记文本的命名实体识别,包含六种实体类型(PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC)的标注。原始数据来源于荷兰传记门户网站,标注文件经人工检查分词和句子拆分,总计包含六个文件。

文件详解

  • 文件名称:biographynet_test_A_gold.json、biographynet_test_B_gold.json、biographynet_test_C_gold.json
  • 文件格式:JSON
  • 字段映射介绍:包含荷兰传记文本的命名实体识别标注信息,具体字段未提供预览
  • 文件名称:biographynet_test_A_gold.conll、biographynet_test_B_gold.conll、biographynet_test_C_gold.conll
  • 文件格式:CoNLL
  • 字段映射介绍:采用CoNLL格式存储的命名实体识别标注数据,已人工检查分词和句子拆分准确性

数据来源

荷兰传记门户网站(http://www.biografischportaal.nl/

适用场景

  • 荷兰语命名实体识别模型训练与测试: 用于开发和评估针对荷兰传记文本的实体识别算法
  • 传记文本信息抽取研究: 提取传记中的人物、地点、机构、日期等关键实体信息
  • 多语言NLP资源补充: 丰富低资源语言(荷兰语)的命名实体识别数据集
  • 历史人物研究辅助: 辅助历史学者从大量传记文本中快速定位关键实体信息
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.88 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。