数据集概述
本数据集用于荷兰传记文本的命名实体识别,包含六种实体类型(PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC)的标注。原始数据来源于荷兰传记门户网站,标注文件经人工检查分词和句子拆分,总计包含六个文件。
文件详解
- 文件名称:biographynet_test_A_gold.json、biographynet_test_B_gold.json、biographynet_test_C_gold.json
- 文件格式:JSON
- 字段映射介绍:包含荷兰传记文本的命名实体识别标注信息,具体字段未提供预览
- 文件名称:biographynet_test_A_gold.conll、biographynet_test_B_gold.conll、biographynet_test_C_gold.conll
- 文件格式:CoNLL
- 字段映射介绍:采用CoNLL格式存储的命名实体识别标注数据,已人工检查分词和句子拆分准确性
数据来源
荷兰传记门户网站(http://www.biografischportaal.nl/)
适用场景
- 荷兰语命名实体识别模型训练与测试: 用于开发和评估针对荷兰传记文本的实体识别算法
- 传记文本信息抽取研究: 提取传记中的人物、地点、机构、日期等关键实体信息
- 多语言NLP资源补充: 丰富低资源语言(荷兰语)的命名实体识别数据集
- 历史人物研究辅助: 辅助历史学者从大量传记文本中快速定位关键实体信息